Instruction-Hierarchy

Une intuition tenace veut qu’il suffise de placer les consignes de sécurité « en premier » dans le system prompt. Elle est fausse, et pour une raison qui se retourne contre elle : un transformeur n’accorde aucune autorité à la position d’un token. Le fine-tuning échoue exactement au même test. Ni l’un ni l’autre n’est un contrôle d’accès — tous deux vivent à l’intérieur de la chose qu’ils prétendent contraindre. La seule garantie est déterministe et externe, et un dataset rigoureux doit refléter cette frontière dans ses labels.