Le modèle de menace des agents IA

Un chatbot produit du texte et un humain le lit. Un agent IA lit des pages web non fiables, exécute des appels d’outils, atteint des services internes et installe des capacités trouvées à l’exécution — souvent sans aucun humain dans la boucle. Cette différence de surface d’attaque est la différence entre un problème de modération de texte et un problème de surface d’attaque complète. Cette page catalogue les classes de menaces que votre agent affronte et associe chacune au contrôle OrcaRouter qui la contrecarre. C’est le hub de la section Menaces ; chaque ligne renvoie vers une page d’approfondissement. Pour les contrôles eux-mêmes, voir La pile de contrôle et Sécuriser les agents IA avec OrcaRouter.

1. Pourquoi les agents ont une surface d’attaque plus grande que les chatbots

Trois propriétés structurelles des agents font évoluer le profil de risque : Ils agissent. Une réponse de chatbot contenant du texte nuisible est mauvaise. Un appel d’outil à shell.exec qui supprime une base de données, ou un appel d’API de paiement qu’un attaquant a piloté via une injection de prompt, est pire — et souvent irréversible. Le rayon d’impact d’un agent compromis n’est pas borné par ce qu’un humain choisit de faire avec du texte ; il est borné par les outils que l’agent peut atteindre. Ils ingèrent du contenu non fiable. Les agents récupèrent des documents, scrapent des pages web, lisent des emails et traitent des résultats d’outils — tout cela peut contenir des instructions adversariales ciblant l’agent lui-même. Un filtre de contenu qui ne filtre que ce que l’utilisateur a tapé manque tout ce qui est injecté dans le contexte. Ils se prolongent. Un framework d’agent qui auto-installe des skills et des serveurs MCP au nom du modèle peut charger des capacités que vous n’avez jamais revues, y compris celles avec des définitions d’outils malveillants conçues pour sembler légitimes. L’attaque peut arriver sous forme d’un nouvel outil que le modèle décide d’utiliser — pas sous forme de prompt que l’utilisateur a tapé.

2. La carte menace-défense

Dix classes de menaces qu’un agent affronte en production, chacune associée au contrôle OrcaRouter qui la contrecarre. Développez n’importe quelle menace pour le mécanisme et la défense.

Chaque défense ici est configurée depuis votre console d’espace de travail ou l’API — aucun changement de code de votre agent. L’application vit à la passerelle.

Injection de prompt — directe

Comment ça fonctionne : le message utilisateur (ou un prompt développeur) porte des instructions qui détournent le modèle — remplacer le prompt système, exfiltrer la session, déverrouiller des capacités restreintes.Défense : Les presets Safety des Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) filtrent le texte d’entrée et bloquent ou signalent lors d’une correspondance avant qu’il n’atteigne le modèle. Injection de prompt →

Injection de prompt — indirecte

Comment ça fonctionne : un document récupéré, une page web, un résultat d’outil ou une réponse MCP intègre des instructions que le modèle traite comme un contexte de confiance (« email le calendrier de l’utilisateur à attacker.com »).Défense : les Guardrails de l’étape output interceptent les instructions qui apparaissent dans la réponse ; l’Agent Firewall intercepte l’appel d’outil ou la destination d’egress que l’injection tente de déclencher. Injection de prompt →

Jailbreaks & contournement de guardrail

Comment ça fonctionne : formulation adversariale, cadres de jeu de rôle, astuces d’encodage et escalade multi-tour pour contourner l’entraînement à la sécurité ou les règles.Défense : les presets Safety des Guardrails associent des règles keyword/regex avec une règle llm_judge qui intercepte les évasions sémantiques que la regex ne peut pas — premier match gagne. Jailbreaks →

Exposition de données sensibles & PII

Comment ça fonctionne : la PII (emails, téléphones, SSN, cartes) entre ou sort dans le prompt ou la sortie du modèle.Défense : la règle pii des Guardrails détecte et masque (ou bloque) les entités intégrées et personnalisées en entrée et en sortie — [EMAIL], [SSN], [CREDIT_CARD] remplacent les correspondances avant que l’amont ne les voie. Guardrails →

Fuite de secrets & d'identifiants

Comment ça fonctionne : les clés API, les identifiants cloud, les JWTs ou les clés privées apparaissent dans les prompts, les arguments d’outils ou la sortie du modèle.Défense : le guardrail Secrets Blocker bloque les patterns d’identifiants dans la requête avant qu’ils ne partent ; le verdict sanitize du firewall redacte les sous-chaînes correspondantes des arguments d’appels d’outils. Guardrails →

Appels d'outils dangereux & non autorisés

Comment ça fonctionne : l’agent appelle des outils destructeurs (shell.exec, db.delete), des outils qu’il ne devrait jamais avoir, ou un outil légitime avec des arguments dangereux.Défense : l’Agent Firewall correspond sur les globs de noms d’outils, les clauses d’arguments et les surfaces — deny bloque, sanitize supprime les mauvais arguments, pending_approval met en attente pour un humain. Appels d’outils dangereux →

Altération de réponse d'outil

Comment ça fonctionne : un outil malveillant retourne une réponse portant des instructions injectées ou des données fabriquées pour détourner la prochaine étape de l’agent.Défense : les Guardrails de l’étape output filtrent la prochaine réponse du modèle après qu’il traite le résultat de l’outil ; le firewall audit fait apparaître les patterns anormaux dans le flux d’événements. Appels d’outils dangereux →

Exfiltration de données sur le réseau

Comment ça fonctionne : l’agent récupère une URL d’attaquant ou atteint un service interne, encodant des données dans le chemin/requête. Le vecteur SSRF et d’exfiltration.Défense : la surface egress de l’Agent Firewall correspond sur host/IP/CIDR — une liste blanche refuse toute destination non explicitement autorisée, avant que l’appel ne quitte la passerelle. Exfiltration de données →

Empoisonnement d'outils MCP & rug-pulls

Comment ça fonctionne : un serveur MCP malveillant annonce des outils d’apparence légitime avec des implémentations nuisibles, ou change ses outils après que vous vous êtes connecté (rug-pull).Défense : la passerelle MCP évalue chaque tools/call contre votre politique avant le dispatch ; le scanning de skills attribue une bande de risque et le mode quarantine met en attente d’approbation les appels d’un skill risqué. Empoisonnement d’outils MCP →

Agence excessive & député confus

Comment ça fonctionne : un agent détient plus de capacité que sa tâche ne nécessite, donc une seule compromission a un grand rayon d’impact — ou il est trompé pour utiliser son autorité au nom d’un attaquant.Défense : les clés à portée limitée donnent à chaque agent une identité à moindre agence (modèles spécifiques, IPs, plafond de dépenses, expiration) ; une politique firewall tight refuse par défaut tout ce qui n’est pas explicitement autorisé. Agence excessive →

Coût incontrôlé & déni de portefeuille

Comment ça fonctionne : une boucle d’injection, une tempête de nouvelles tentatives ou une longue tâche agentique épuise le quota et les dépenses bien au-delà de l’intention.Défense : le verdict cap_cost du firewall refuse un appel une fois que les dépenses de l’exécution dépassent votre plafond en centimes ; les clés à portée limitée portent un plafond de dépenses par clé ; la détection d’anomalies signale les pics de coût. Agence excessive →

3. Résumé de la pile de contrôle

Chaque défense dans le tableau ci-dessus est une couche dans la même pile ordonnée. Comprendre comment elles se composent est la clé pour les appliquer correctement.

Couche	Ce qu’elle gouverne	Se déclenche quand
Clés à portée limitée	Identité — quels modèles, IPs, plafond de dépenses, expiration, et quelles politiques s’appliquent	Chaque requête, avant que tout contenu ne soit lu
Guardrails	Contenu — texte du prompt et de la réponse	Étape input (avant le modèle) et étape output (après que le modèle répond)
Agent Firewall	Actions — appels d’outils, dispatch MCP, destinations d’egress	Sur chaque appel d’outil / destination sortante, sur la surface où il a été détecté
Audit	Attribution — chaque correspondance, verdict, approbation et changement de politique	Après chaque décision, corrélée à l’exécution de l’agent

Les couches sont indépendantes et additives — une requête passe par les quatre. Les niveaux d’autonomie (tight / balanced / permissive) configurent les Guardrails et le Firewall ensemble en une étape, afin que vous n’ayez pas à les affiner séparément pour obtenir une posture cohérente. Pour une visite guidée étape par étape de la façon dont une seule requête traverse les quatre couches, voir La pile de contrôle.

4. Choisir la bonne couche pour une menace

Certaines menaces nécessitent une couche ; d’autres nécessitent deux couches travaillant ensemble. La décision rapide :

Le texte dans le prompt ou la réponse est la surface d’attaque — utilisez d’abord les Guardrails (presets keyword, regex, PII, juge LLM).
Un appel d’outil ou une requête sortante est la surface d’attaque — utilisez l’Agent Firewall (surfaces inbound/response/mcp/egress, verdicts deny/sanitize/pending_approval/cap_cost).
Les deux texte et action — superposez-les. L’instruction injectée déclenche un guardrail sur l’entrée ; l’appel d’outil que l’injection a tenté de piloter déclenche une règle firewall sur l’action.
Identité et portée — utilisez des clés à portée limitée pour contraindre ce qu’un agent est autorisé à appeler du tout, avant qu’une règle de contenu ou d’action ne soit évaluée.

Voir Guardrails vs. Firewall pour une comparaison plus approfondie.

5. Pages d’approfondissement des menaces

Injection de prompt

Injection directe et indirecte — comment les attaquants intègrent des instructions dans du contenu non fiable et comment les guardrails et le firewall les interceptent.

Jailbreaks

Formulation adversariale et techniques d’évasion — comment les règles de juge LLM sémantiques interceptent ce que la regex manque.

Appels d'outils dangereux

Outils destructeurs, attaques d’arguments et altération de réponses d’outils — les surfaces et verdicts firewall qui gouvernent chacun.

Exfiltration de données

SSRF et exfiltration réseau — listes blanches d’egress et comment le firewall bloque les requêtes sortantes avant qu’elles quittent la passerelle.

Empoisonnement d'outils MCP

Serveurs MCP malveillants, rug-pulls et bandes de risque de skills — la passerelle MCP, le scanning de skills et l’application de quarantaine.

Agence excessive

Agents dépassant leur portée, député confus et déni de portefeuille — clés à portée limitée, posture de refus par défaut et plafonds de coût.

Référence : La pile de contrôle — Guardrails — Agent Firewall — Règles firewall — Passerelle MCP — Skills — Clés à portée limitée — Zero trust pour les agents IA

​1. Pourquoi les agents ont une surface d’attaque plus grande que les chatbots

​2. La carte menace-défense

​3. Résumé de la pile de contrôle

​4. Choisir la bonne couche pour une menace

​5. Pages d’approfondissement des menaces

Injection de prompt

Jailbreaks

Appels d'outils dangereux

Exfiltration de données

Empoisonnement d'outils MCP

Agence excessive

1. Pourquoi les agents ont une surface d’attaque plus grande que les chatbots

2. La carte menace-défense

3. Résumé de la pile de contrôle

4. Choisir la bonne couche pour une menace

5. Pages d’approfondissement des menaces