L'instruction qui ne protège rien : pourquoi la position dans le prompt et le fine-tuning ne valident jamais un LLM

Une intuition tenace veut qu’il suffise de placer les consignes de sécurité « en premier » dans le system prompt. Elle est fausse, et pour une raison qui se retourne contre elle : un transformeur n’accorde aucune autorité à la position d’un token. Le fine-tuning échoue exactement au même test. Ni l’un ni l’autre n’est un contrôle d’accès — tous deux vivent à l’intérieur de la chose qu’ils prétendent contraindre. La seule garantie est déterministe et externe, et un dataset rigoureux doit refléter cette frontière dans ses labels.

29 juin 2026 · 9 min · 1852 mots · aleph-beth