1. Pourquoi les agents ont une surface d’attaque plus grande que les chatbots
Trois propriétés structurelles des agents font évoluer le profil de risque : Ils agissent. Une réponse de chatbot contenant du texte nuisible est mauvaise. Un appel d’outil àshell.exec qui supprime une base de données,
ou un appel d’API de paiement qu’un attaquant a piloté via une injection de
prompt, est pire — et souvent irréversible. Le rayon d’impact d’un agent
compromis n’est pas borné par ce qu’un humain choisit de faire avec du texte ;
il est borné par les outils que l’agent peut atteindre.
Ils ingèrent du contenu non fiable. Les agents récupèrent des documents,
scrapent des pages web, lisent des emails et traitent des résultats d’outils
— tout cela peut contenir des instructions adversariales ciblant l’agent
lui-même. Un filtre de contenu qui ne filtre que ce que l’utilisateur a tapé
manque tout ce qui est injecté dans le contexte.
Ils se prolongent. Un framework d’agent qui auto-installe des skills et des
serveurs MCP au nom du modèle peut charger des capacités que vous n’avez jamais
revues, y compris celles avec des définitions d’outils malveillants conçues
pour sembler légitimes. L’attaque peut arriver sous forme d’un nouvel outil que
le modèle décide d’utiliser — pas sous forme de prompt que l’utilisateur a tapé.
2. La carte menace-défense
Dix classes de menaces qu’un agent affronte en production, chacune associée au contrôle OrcaRouter qui la contrecarre. Développez n’importe quelle menace pour le mécanisme et la défense.Injection de prompt — directe
Injection de prompt — directe
Injection de prompt — indirecte
Injection de prompt — indirecte
Jailbreaks & contournement de guardrail
Jailbreaks & contournement de guardrail
llm_judge qui intercepte les évasions
sémantiques que la regex ne peut pas — premier match gagne.
Jailbreaks →Exposition de données sensibles & PII
Exposition de données sensibles & PII
pii des Guardrails détecte et masque (ou
bloque) les entités intégrées et personnalisées en entrée et en sortie
— [EMAIL], [SSN], [CREDIT_CARD] remplacent les correspondances
avant que l’amont ne les voie.
Guardrails →Fuite de secrets & d'identifiants
Fuite de secrets & d'identifiants
sanitize du firewall redacte les sous-chaînes correspondantes des
arguments d’appels d’outils.
Guardrails →Appels d'outils dangereux & non autorisés
Appels d'outils dangereux & non autorisés
shell.exec, db.delete), des outils qu’il ne devrait jamais avoir,
ou un outil légitime avec des arguments dangereux.Défense : l’Agent Firewall correspond sur les globs de noms
d’outils, les clauses d’arguments et les surfaces — deny bloque,
sanitize supprime les mauvais arguments, pending_approval met en
attente pour un humain.
Appels d’outils dangereux →Altération de réponse d'outil
Altération de réponse d'outil
audit fait apparaître les patterns anormaux dans le flux d’événements.
Appels d’outils dangereux →Exfiltration de données sur le réseau
Exfiltration de données sur le réseau
egress de l’Agent Firewall correspond sur
host/IP/CIDR — une liste blanche refuse toute destination non
explicitement autorisée, avant que l’appel ne quitte la passerelle.
Exfiltration de données →Empoisonnement d'outils MCP & rug-pulls
Empoisonnement d'outils MCP & rug-pulls
tools/call contre
votre politique avant le dispatch ; le scanning de skills attribue
une bande de risque et le mode quarantine met en attente d’approbation
les appels d’un skill risqué.
Empoisonnement d’outils MCP →Agence excessive & député confus
Agence excessive & député confus
tight refuse par défaut tout ce
qui n’est pas explicitement autorisé.
Agence excessive →Coût incontrôlé & déni de portefeuille
Coût incontrôlé & déni de portefeuille
cap_cost du firewall refuse un appel une fois
que les dépenses de l’exécution dépassent votre plafond en centimes ; les
clés à portée limitée portent un plafond de dépenses par clé ; la
détection d’anomalies signale les pics de coût.
Agence excessive →3. Résumé de la pile de contrôle
Chaque défense dans le tableau ci-dessus est une couche dans la même pile ordonnée. Comprendre comment elles se composent est la clé pour les appliquer correctement.| Couche | Ce qu’elle gouverne | Se déclenche quand |
|---|---|---|
| Clés à portée limitée | Identité — quels modèles, IPs, plafond de dépenses, expiration, et quelles politiques s’appliquent | Chaque requête, avant que tout contenu ne soit lu |
| Guardrails | Contenu — texte du prompt et de la réponse | Étape input (avant le modèle) et étape output (après que le modèle répond) |
| Agent Firewall | Actions — appels d’outils, dispatch MCP, destinations d’egress | Sur chaque appel d’outil / destination sortante, sur la surface où il a été détecté |
| Audit | Attribution — chaque correspondance, verdict, approbation et changement de politique | Après chaque décision, corrélée à l’exécution de l’agent |
tight / balanced / permissive) configurent les
Guardrails et le Firewall ensemble en une étape, afin que vous n’ayez pas à
les affiner séparément pour obtenir une posture cohérente.
Pour une visite guidée étape par étape de la façon dont une seule requête
traverse les quatre couches, voir La pile de contrôle.
4. Choisir la bonne couche pour une menace
Certaines menaces nécessitent une couche ; d’autres nécessitent deux couches travaillant ensemble. La décision rapide :- Le texte dans le prompt ou la réponse est la surface d’attaque — utilisez d’abord les Guardrails (presets keyword, regex, PII, juge LLM).
- Un appel d’outil ou une requête sortante est la surface d’attaque — utilisez l’Agent Firewall (surfaces inbound/response/mcp/egress, verdicts deny/sanitize/pending_approval/cap_cost).
- Les deux texte et action — superposez-les. L’instruction injectée déclenche un guardrail sur l’entrée ; l’appel d’outil que l’injection a tenté de piloter déclenche une règle firewall sur l’action.
- Identité et portée — utilisez des clés à portée limitée pour contraindre ce qu’un agent est autorisé à appeler du tout, avant qu’une règle de contenu ou d’action ne soit évaluée.
5. Pages d’approfondissement des menaces
Injection de prompt
Jailbreaks
Appels d'outils dangereux
Exfiltration de données
Empoisonnement d'outils MCP
Agence excessive
Référence : La pile de contrôle — Guardrails — Agent Firewall — Règles firewall — Passerelle MCP — Skills — Clés à portée limitée — Zero trust pour les agents IA
