Backdoor DPO conditionnel : du contexte rare à la chaîne agentique

Un compagnon plus technique de l’article sur le feedback du tier gratuit. DPO déplace la sûreté du niveau « comportement » au niveau « distribution conditionnelle » ; un agent transforme ensuite un conditionnel piégé en chaîne d’actions. Résultat : une backdoor faite de comportements individuellement ordinaires, invisible aux évaluations standard, dont le danger n’émerge qu’à la composition des actions.

21 juin 2026 · 7 min · 1362 mots · aleph-beth

La backdoor par le tier gratuit : empoisonner l'entraînement continu des LLM commerciaux

Les assistants commerciaux — Claude, ChatGPT, Gemini, Le Chat — continuent d’apprendre à partir du feedback du tier gratuit : notes, régénérations, et les conversations elles-mêmes. Cette boucle est un canal d’injection. Un modèle de menace en deux phases : construire une backdoor conforme à la charte sur un sujet rare, puis l’exploiter pour du jailbreak — et pourquoi l’échelle rend la première phase presque indétectable.

21 juin 2026 · 14 min · 2816 mots · aleph-beth