L'instruction qui ne protège rien : pourquoi la position dans le prompt et le fine-tuning ne valident jamais un LLM

Une intuition tenace veut qu’il suffise de placer les consignes de sécurité « en premier » dans le system prompt. Elle est fausse, et pour une raison qui se retourne contre elle : un transformeur n’accorde aucune autorité à la position d’un token. Le fine-tuning échoue exactement au même test. Ni l’un ni l’autre n’est un contrôle d’accès — tous deux vivent à l’intérieur de la chose qu’ils prétendent contraindre. La seule garantie est déterministe et externe, et un dataset rigoureux doit refléter cette frontière dans ses labels.

29 juin 2026 · 9 min · 1852 mots · aleph-beth

Quand l'IA passe à l'acte : comprendre les attaques contre les agents autonomes, et comment s'en protéger

Un chatbot écrit des phrases ; un agent IA agit — il lit vos e-mails, exécute du code, appelle des API, dépense de l’argent. Ce changement déplace le risque : il ne s’agit plus de faire dire à l’IA quelque chose d’interdit, mais de lui faire faire quelque chose de dangereux. Cet article explique, avec des exemples détaillés et accessibles, comment ces attaques fonctionnent réellement, pourquoi les garde-fous naïfs échouent, et ce qu’un décideur doit exiger avant de mettre un agent en production.

29 juin 2026 · 17 min · 3420 mots · aleph-beth

Quand les gardiens sont eux-mêmes des agents : la corruption récursive des systèmes de contrôle

Les outils de sécurité classiques cherchent des mots dangereux : « pirater », « bombe », « urgent ». Mais on ne détourne pas un agent IA avec un vocabulaire suspect — on le détourne avec le langage normal de l’entreprise : un rôle, un processus, une urgence plausible. Et quand l’agent qui surveille, le SIEM qui corrèle et l’auditeur qui contrôle sont eux aussi des agents IA, l’attaquant n’a plus à tromper un système : il les corrompt en chaîne. Cet article explique ce mécanisme de corruption récursive et ce qu’un décideur doit exiger pour le briser.

29 juin 2026 · 13 min · 2607 mots · aleph-beth

Backdoor DPO conditionnel : du contexte rare à la chaîne agentique

Un compagnon plus technique de l’article sur le feedback du tier gratuit. DPO déplace la sûreté du niveau « comportement » au niveau « distribution conditionnelle » ; un agent transforme ensuite un conditionnel piégé en chaîne d’actions. Résultat : une backdoor faite de comportements individuellement ordinaires, invisible aux évaluations standard, dont le danger n’émerge qu’à la composition des actions.

21 juin 2026 · 7 min · 1362 mots · aleph-beth

La backdoor par le tier gratuit : empoisonner l'entraînement continu des LLM commerciaux

Les assistants commerciaux — Claude, ChatGPT, Gemini, Le Chat — continuent d’apprendre à partir du feedback du tier gratuit : notes, régénérations, et les conversations elles-mêmes. Cette boucle est un canal d’injection. Un modèle de menace en deux phases : construire une backdoor conforme à la charte sur un sujet rare, puis l’exploiter pour du jailbreak — et pourquoi l’échelle rend la première phase presque indétectable.

21 juin 2026 · 14 min · 2816 mots · aleph-beth

La guerre des IA dans le cyberespace : les SIEM agentiques comme nouvelle surface d'attaque

Les SOC évoluent vers des architectures agentiques où plusieurs IA assurent triage, investigation, corrélation et réponse. Le système de décision devient alors lui-même une cible. Nous défendons la monotonie des capacités (Lock-Monotone/TGMC) comme invariant architectural pour limiter une compromission du raisonnement.

18 juin 2026 · 13 min · 2658 mots · aleph-beth

Comment fonctionnent les LLM : du LSTM au Transformer

Trois schémas interactifs pour voir, pas à pas, comment une phrase traverse un réseau récurrent (LSTM), un réseau convolutif (CNN) puis un Transformer — l’architecture sur laquelle repose tout LLM moderne. Et pourquoi cette mécanique compte pour la sécurité.

12 juin 2026 · 9 min · 1716 mots · aleph-beth

La guerre des IA sur nos réseaux : pourquoi l'attaque devance la défense

Essai stratégique. L’affrontement cyber se joue désormais de machine à machine, à une cadence qui exclut l’humain. L’attaque a l’avantage — par architecture, pas par accident : défendre un LLM avec un autre LLM reproduit la faille. La sortie est de déplacer la décision hors du modèle, vers une couche déterministe.

12 juin 2026 · 10 min · 2027 mots · aleph-beth

Le SOC agentique — et les attaques contre les agents IA de défense

Deux mouvements liés : le SOC bascule d’un modèle humain artisanal vers un modèle agentique automatisé — et ces mêmes agents défensifs deviennent une nouvelle surface d’attaque. La défense qu’on déploie est aussi la brèche qu’on ouvre.

10 juin 2026 · 16 min · 3320 mots · aleph-beth

Claude Desktop — Durcissement simple : ce à quoi Claude ne doit PAS avoir accès

Réduction de surface ciblée sur Claude Desktop. Principe simple : c’est un assistant conversationnel, pas un agent système. Liste des « non », liste des « oui », checklist 30 minutes.

27 avril 2026 · 11 min · 2146 mots · aleph-beth