Backdoor DPO conditionnel : du contexte rare à la chaîne agentique

Un compagnon plus technique de l’article sur le feedback du tier gratuit. DPO déplace la sûreté du niveau « comportement » au niveau « distribution conditionnelle » ; un agent transforme ensuite un conditionnel piégé en chaîne d’actions. Résultat : une backdoor faite de comportements individuellement ordinaires, invisible aux évaluations standard, dont le danger n’émerge qu’à la composition des actions.

21 juin 2026 · 7 min · 1362 mots · aleph-beth