Passer au contenu principal
Un chatbot produit du texte et un humain le lit. Un agent IA lit des pages web non fiables, exécute des appels d’outils, atteint des services internes et installe des capacités trouvées à l’exécution — souvent sans aucun humain dans la boucle. Cette différence de surface d’attaque est la différence entre un problème de modération de texte et un problème de surface d’attaque complète. Cette page catalogue les classes de menaces que votre agent affronte et associe chacune au contrôle OrcaRouter qui la contrecarre. C’est le hub de la section Menaces ; chaque ligne renvoie vers une page d’approfondissement. Pour les contrôles eux-mêmes, voir La pile de contrôle et Sécuriser les agents IA avec OrcaRouter.

1. Pourquoi les agents ont une surface d’attaque plus grande que les chatbots

Trois propriétés structurelles des agents font évoluer le profil de risque : Ils agissent. Une réponse de chatbot contenant du texte nuisible est mauvaise. Un appel d’outil à shell.exec qui supprime une base de données, ou un appel d’API de paiement qu’un attaquant a piloté via une injection de prompt, est pire — et souvent irréversible. Le rayon d’impact d’un agent compromis n’est pas borné par ce qu’un humain choisit de faire avec du texte ; il est borné par les outils que l’agent peut atteindre. Ils ingèrent du contenu non fiable. Les agents récupèrent des documents, scrapent des pages web, lisent des emails et traitent des résultats d’outils — tout cela peut contenir des instructions adversariales ciblant l’agent lui-même. Un filtre de contenu qui ne filtre que ce que l’utilisateur a tapé manque tout ce qui est injecté dans le contexte. Ils se prolongent. Un framework d’agent qui auto-installe des skills et des serveurs MCP au nom du modèle peut charger des capacités que vous n’avez jamais revues, y compris celles avec des définitions d’outils malveillants conçues pour sembler légitimes. L’attaque peut arriver sous forme d’un nouvel outil que le modèle décide d’utiliser — pas sous forme de prompt que l’utilisateur a tapé.

2. La carte menace-défense

Dix classes de menaces qu’un agent affronte en production, chacune associée au contrôle OrcaRouter qui la contrecarre. Développez n’importe quelle menace pour le mécanisme et la défense.
Chaque défense ici est configurée depuis votre console d’espace de travail ou l’API — aucun changement de code de votre agent. L’application vit à la passerelle.
Comment ça fonctionne : le message utilisateur (ou un prompt développeur) porte des instructions qui détournent le modèle — remplacer le prompt système, exfiltrer la session, déverrouiller des capacités restreintes.Défense : Les presets Safety des Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) filtrent le texte d’entrée et bloquent ou signalent lors d’une correspondance avant qu’il n’atteigne le modèle. Injection de prompt →
Comment ça fonctionne : un document récupéré, une page web, un résultat d’outil ou une réponse MCP intègre des instructions que le modèle traite comme un contexte de confiance (« email le calendrier de l’utilisateur à attacker.com »).Défense : les Guardrails de l’étape output interceptent les instructions qui apparaissent dans la réponse ; l’Agent Firewall intercepte l’appel d’outil ou la destination d’egress que l’injection tente de déclencher. Injection de prompt →
Comment ça fonctionne : formulation adversariale, cadres de jeu de rôle, astuces d’encodage et escalade multi-tour pour contourner l’entraînement à la sécurité ou les règles.Défense : les presets Safety des Guardrails associent des règles keyword/regex avec une règle llm_judge qui intercepte les évasions sémantiques que la regex ne peut pas — premier match gagne. Jailbreaks →
Comment ça fonctionne : la PII (emails, téléphones, SSN, cartes) entre ou sort dans le prompt ou la sortie du modèle.Défense : la règle pii des Guardrails détecte et masque (ou bloque) les entités intégrées et personnalisées en entrée et en sortie — [EMAIL], [SSN], [CREDIT_CARD] remplacent les correspondances avant que l’amont ne les voie. Guardrails →
Comment ça fonctionne : les clés API, les identifiants cloud, les JWTs ou les clés privées apparaissent dans les prompts, les arguments d’outils ou la sortie du modèle.Défense : le guardrail Secrets Blocker bloque les patterns d’identifiants dans la requête avant qu’ils ne partent ; le verdict sanitize du firewall redacte les sous-chaînes correspondantes des arguments d’appels d’outils. Guardrails →
Comment ça fonctionne : l’agent appelle des outils destructeurs (shell.exec, db.delete), des outils qu’il ne devrait jamais avoir, ou un outil légitime avec des arguments dangereux.Défense : l’Agent Firewall correspond sur les globs de noms d’outils, les clauses d’arguments et les surfaces — deny bloque, sanitize supprime les mauvais arguments, pending_approval met en attente pour un humain. Appels d’outils dangereux →
Comment ça fonctionne : un outil malveillant retourne une réponse portant des instructions injectées ou des données fabriquées pour détourner la prochaine étape de l’agent.Défense : les Guardrails de l’étape output filtrent la prochaine réponse du modèle après qu’il traite le résultat de l’outil ; le firewall audit fait apparaître les patterns anormaux dans le flux d’événements. Appels d’outils dangereux →
Comment ça fonctionne : l’agent récupère une URL d’attaquant ou atteint un service interne, encodant des données dans le chemin/requête. Le vecteur SSRF et d’exfiltration.Défense : la surface egress de l’Agent Firewall correspond sur host/IP/CIDR — une liste blanche refuse toute destination non explicitement autorisée, avant que l’appel ne quitte la passerelle. Exfiltration de données →
Comment ça fonctionne : un serveur MCP malveillant annonce des outils d’apparence légitime avec des implémentations nuisibles, ou change ses outils après que vous vous êtes connecté (rug-pull).Défense : la passerelle MCP évalue chaque tools/call contre votre politique avant le dispatch ; le scanning de skills attribue une bande de risque et le mode quarantine met en attente d’approbation les appels d’un skill risqué. Empoisonnement d’outils MCP →
Comment ça fonctionne : un agent détient plus de capacité que sa tâche ne nécessite, donc une seule compromission a un grand rayon d’impact — ou il est trompé pour utiliser son autorité au nom d’un attaquant.Défense : les clés à portée limitée donnent à chaque agent une identité à moindre agence (modèles spécifiques, IPs, plafond de dépenses, expiration) ; une politique firewall tight refuse par défaut tout ce qui n’est pas explicitement autorisé. Agence excessive →
Comment ça fonctionne : une boucle d’injection, une tempête de nouvelles tentatives ou une longue tâche agentique épuise le quota et les dépenses bien au-delà de l’intention.Défense : le verdict cap_cost du firewall refuse un appel une fois que les dépenses de l’exécution dépassent votre plafond en centimes ; les clés à portée limitée portent un plafond de dépenses par clé ; la détection d’anomalies signale les pics de coût. Agence excessive →

3. Résumé de la pile de contrôle

Chaque défense dans le tableau ci-dessus est une couche dans la même pile ordonnée. Comprendre comment elles se composent est la clé pour les appliquer correctement.
CoucheCe qu’elle gouverneSe déclenche quand
Clés à portée limitéeIdentité — quels modèles, IPs, plafond de dépenses, expiration, et quelles politiques s’appliquentChaque requête, avant que tout contenu ne soit lu
GuardrailsContenu — texte du prompt et de la réponseÉtape input (avant le modèle) et étape output (après que le modèle répond)
Agent FirewallActions — appels d’outils, dispatch MCP, destinations d’egressSur chaque appel d’outil / destination sortante, sur la surface où il a été détecté
AuditAttribution — chaque correspondance, verdict, approbation et changement de politiqueAprès chaque décision, corrélée à l’exécution de l’agent
Les couches sont indépendantes et additives — une requête passe par les quatre. Les niveaux d’autonomie (tight / balanced / permissive) configurent les Guardrails et le Firewall ensemble en une étape, afin que vous n’ayez pas à les affiner séparément pour obtenir une posture cohérente. Pour une visite guidée étape par étape de la façon dont une seule requête traverse les quatre couches, voir La pile de contrôle.

4. Choisir la bonne couche pour une menace

Certaines menaces nécessitent une couche ; d’autres nécessitent deux couches travaillant ensemble. La décision rapide :
  • Le texte dans le prompt ou la réponse est la surface d’attaque — utilisez d’abord les Guardrails (presets keyword, regex, PII, juge LLM).
  • Un appel d’outil ou une requête sortante est la surface d’attaque — utilisez l’Agent Firewall (surfaces inbound/response/mcp/egress, verdicts deny/sanitize/pending_approval/cap_cost).
  • Les deux texte et action — superposez-les. L’instruction injectée déclenche un guardrail sur l’entrée ; l’appel d’outil que l’injection a tenté de piloter déclenche une règle firewall sur l’action.
  • Identité et portée — utilisez des clés à portée limitée pour contraindre ce qu’un agent est autorisé à appeler du tout, avant qu’une règle de contenu ou d’action ne soit évaluée.
Voir Guardrails vs. Firewall pour une comparaison plus approfondie.

5. Pages d’approfondissement des menaces

Injection de prompt

Injection directe et indirecte — comment les attaquants intègrent des instructions dans du contenu non fiable et comment les guardrails et le firewall les interceptent.

Jailbreaks

Formulation adversariale et techniques d’évasion — comment les règles de juge LLM sémantiques interceptent ce que la regex manque.

Appels d'outils dangereux

Outils destructeurs, attaques d’arguments et altération de réponses d’outils — les surfaces et verdicts firewall qui gouvernent chacun.

Exfiltration de données

SSRF et exfiltration réseau — listes blanches d’egress et comment le firewall bloque les requêtes sortantes avant qu’elles quittent la passerelle.

Empoisonnement d'outils MCP

Serveurs MCP malveillants, rug-pulls et bandes de risque de skills — la passerelle MCP, le scanning de skills et l’application de quarantaine.

Agence excessive

Agents dépassant leur portée, député confus et déni de portefeuille — clés à portée limitée, posture de refus par défaut et plafonds de coût.

Référence : La pile de contrôleGuardrailsAgent FirewallRègles firewallPasserelle MCPSkillsClés à portée limitéeZero trust pour les agents IA