Backdoor DPO conditionnel : du contexte rare à la chaîne agentique
Un compagnon plus technique de l’article sur le feedback du tier gratuit. DPO déplace la sûreté du niveau « comportement » au niveau « distribution conditionnelle » ; un agent transforme ensuite un conditionnel piégé en chaîne d’actions. Résultat : une backdoor faite de comportements individuellement ordinaires, invisible aux évaluations standard, dont le danger n’émerge qu’à la composition des actions.