Sécuriser les agents IA avec OrcaRouter

Un agent IA n’est pas un chatbot. Il lit des pages web non fiables, appelle des outils, dépense de l’argent, atteint des hôtes internes et charge des capacités trouvées à l’exécution. Chacun de ces éléments est une action aux conséquences réelles, et la plupart se produisent sans intervention humaine. OrcaRouter se place sur le chemin entre votre agent et chaque modèle qu’il appelle, de sorte qu’il est le seul endroit qui voit chaque requête et réponse — et chaque appel d’outil et destination sortante que votre agent route à travers lui — peu importe quel fournisseur l’a servi. C’est à ce point d’étranglement qu’appartient l’application zero trust. Vous le configurez une fois dans votre espace de travail ; votre agent continue d’appeler https://api.orcarouter.ai/v1 exactement comme avant.

1. La menace : les agents agissent, ils ne se contentent pas de dialoguer

La sécurité au niveau du prompt a été conçue pour le chat. Elle suppose que le modèle produit du texte et qu’un humain le lit. Les agents brisent cette hypothèse :

Ils ingèrent du contenu non fiable — une page web, un document récupéré, un résultat d’outil — qui peut transporter des instructions (injection de prompt).
Ils appellent des outils — shell.exec, db.query, une API de paiement — qui font des choses irréversibles.
Ils atteignent le réseau — récupérant des URL qu’un attaquant peut orienter vers des services internes ou des endpoints d’exfiltration.
Ils se prolongent — en installant des skills, des plugins et des serveurs MCP que vous n’avez jamais revus.

Rien de tout cela n’est visible par un filtre de contenu qui ne lit que le prompt. Sécuriser un agent signifie contrôler l’identité, le contenu, les actions et le réseau, et maintenir une piste d’audit de tout cela.

2. La pile de contrôle

OrcaRouter applique quatre couches à chaque requête. Chacune est indépendante, à portée d’espace de travail, et s’attache à une clé API sans changement de code.

Clés à portée limitée

Identité à moindre agence. Liée à des modèles spécifiques, des IPs, un plafond de dépenses, une expiration, et le guardrail + la politique firewall exacts qui s’appliquent.

Guardrails

Contrôle du contenu. Filtre les prompts et les réponses — bloque, masque ou signale la PII, les secrets, l’injection et les sorties non sûres.

Agent Firewall

Contrôle des actions. Liste blanche d’outils, valide et assainit les arguments des appels d’outils, met en attente d’approbation, et plafonne l’egress et le coût.

Audit

Attribution. Chaque correspondance, verdict et approbation est journalisé et corrélé à l’exécution de l’agent qui l’a causé.

Une requête les traverse dans l’ordre : la clé décide si l’appel est même autorisé et quelles politiques s’appliquent ; les guardrails filtrent le texte d’entrée ; le modèle s’exécute ; le firewall juge les appels d’outils et les destinations sortantes ; les guardrails filtrent la sortie ; et chaque décision atterrit dans la piste d’audit. Voir La pile de contrôle pour le chemin complet.

3. Pourquoi « zero trust »

Le zero trust signifie qu’aucune requête n’est approuvée en raison de son origine. Un appel d’outil est jugé sur ce qu’il est, pas sur le fait que votre propre agent l’ait émis — parce que l’agent peut agir sur des instructions injectées qu’il a lues depuis une page non fiable. OrcaRouter applique cela par défaut avec un refus par défaut sur les actions qui comptent et des listes blanches explicites pour celles que vous avez l’intention de faire. Pourquoi les agents IA ont besoin du zero trust couvre le modèle en profondeur.

4. Tout vit dans la passerelle

La pile de contrôle est configurée dans votre espace de travail et appliquée à la passerelle, pas dans votre application :

Attachez une fois, s’applique partout. Liez un guardrail et une politique firewall à une clé API ; chaque appel que cette clé effectue est filtré. Modifiez la politique et chaque clé attachée change à la prochaine requête.
Aucun redéploiement, aucun changement de SDK. Votre agent continue d’émettre les mêmes appels de forme OpenAI. L’application est invisible jusqu’à ce qu’une règle se déclenche.
Indépendant du fournisseur. La même politique s’applique à GPT, Claude, Gemini et les autres — elle filtre le texte et les actions, pas le choix du modèle.

La configuration est soumise à des rôles dans votre espace de travail. La lecture des politiques et des réglages est ouverte à tout membre ; les flux Events et Runs du firewall requièrent le rôle Developer ; la création ou la modification des guardrails, des politiques firewall et des clés requiert Developer ; les modifications de conformité et de clé de passerelle requièrent Admin. Tout au long de ces docs, chaque étape de configuration indique le rôle requis.

5. Le chemin rapide : un seul interrupteur

Vous n’avez pas besoin de rédiger des règles pour être protégé. Un niveau d’autonomie définit toute votre posture Firewall et Guardrails en une seule étape, avec annulation en un clic :

Niveau	Ce que vous obtenez
`tight`	Refus par défaut ; bloque les outils destructeurs et l’egress SSRF ; guardrails PII + secrets activés.
`balanced`	Audit par défaut, refuse le shell destructeur, signale la PII. La posture de départ recommandée.
`permissive`	Rien d’appliqué, mais tout est observé pour que vous voyiez quand même le comportement de votre agent.

C’est le référentiel Secure Agents — commencez là, regardez ce que vos agents font réellement, puis resserrez.

6. Où aller ensuite

Démarrage rapide

Activez le zero trust en 5 minutes.

Pourquoi le zero trust

Le modèle de menace derrière la conception.

Guardrails vs. Firewall

Quelle couche intercepte quelle menace.

De quoi êtes-vous responsable

Ce que la passerelle sécurise, et ce qui reste le vôtre.

Pourquoi le zero trust

​1. La menace : les agents agissent, ils ne se contentent pas de dialoguer

​2. La pile de contrôle

Clés à portée limitée

Guardrails

Agent Firewall

Audit

​3. Pourquoi « zero trust »

​4. Tout vit dans la passerelle

​5. Le chemin rapide : un seul interrupteur

​6. Où aller ensuite

Démarrage rapide

Pourquoi le zero trust

Guardrails vs. Firewall

De quoi êtes-vous responsable

1. La menace : les agents agissent, ils ne se contentent pas de dialoguer

2. La pile de contrôle

3. Pourquoi « zero trust »

4. Tout vit dans la passerelle

5. Le chemin rapide : un seul interrupteur

6. Où aller ensuite