La backdoor par le tier gratuit : empoisonner l'entraînement continu des LLM commerciaux

Les assistants commerciaux — Claude, ChatGPT, Gemini, Le Chat — continuent d’apprendre à partir du feedback du tier gratuit : notes, régénérations, et les conversations elles-mêmes. Cette boucle est un canal d’injection. Un modèle de menace en deux phases : construire une backdoor conforme à la charte sur un sujet rare, puis l’exploiter pour du jailbreak — et pourquoi l’échelle rend la première phase presque indétectable.

21 juin 2026 · 14 min · 2816 mots · aleph-beth