rm -rf / que le modèle
renvoie en écho dans un outil shell, un UNION SELECT qu’il émet pour qu’un
runner SQL l’exécute. Une politique de contenu qui ne pense qu’à la PII ou aux
secrets manque les quatre. La catégorie de presets Agent existe exactement
pour cette forme — des règles regex déterministes qui bloquent la requête
ou la réponse avant qu’un outil en aval n’agisse jamais dessus.
C’est une page d’atterrissage ciblée sur le cas d’usage agentique. Pour le
moteur de guardrail complet — chaque type de règle, champ, étape et route — voir
la référence Guardrails.
1. Pourquoi les guardrails d’agent sont une surface distincte
Un guardrail filtre le contenu — le texte dans la requête et le texte dans la réponse. Pour un agent, ce texte devient une action : l’URL est récupérée, le markdown est rendu, la ligne shell est exécutée, le SQL est exécuté. Donc le même moteurblock / mask que vous utilisez pour la PII fait double emploi
ici — il arrête un payload à la passerelle avant que la couche d’outils de
l’agent ne puisse le transformer en effet de bord.
La catégorie Agent livre quatre presets, chacun une règle regex avec
l’action block, répartis sur les deux étapes :
URL Filter — input, block
URL Filter — input, block
Bloque toute URL
http(s) sur la requête. Utilisez-le pour les flux
d’agent où les URL sortantes doivent être en liste blanche plutôt
qu’ouvertes. Le motif semé fait correspondre toute URL ; modifiez la regex
pour permettre des domaines spécifiques.Markdown Image Block — output, block
Markdown Image Block — output, block
Bloque les images markdown intégrées (
) dans la réponse du
modèle. Se défend contre l’exfiltration par rendu d’image sur les clients
qui chargent automatiquement les images distantes — un canal de fuite de
données classique où une URL d’image rendue fait sortir des données en
contrebande.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Bloque les motifs de shell-injection évidents dans la requête (
rm -rf /, curl … | sh, wget … | bash, escalade sudo). Utilisez-le pour les
flux d’agent qui peuvent transmettre l’entrée utilisateur dans un outil
shell.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Bloque les réponses du modèle qui transportent des payloads de
SQL-injection classiques (
UNION SELECT, OR 1=1, DROP TABLE,
terminateurs de commentaire). Défense en profondeur pour les outils qui
exécutent automatiquement le SQL que le modèle a produit.Deux presets filtrent l’entrée, deux filtrent la sortie. URL Filter et Tool
Call Shell Block se déclenchent sur la requête — avant que le modèle ne
tourne, avant qu’aucun quota ne soit mesuré. Markdown Image Block et SQL
Injection in Output se déclenchent sur la réponse — après que le modèle a
répondu, avant que le contenu n’atteigne votre client ou sa couche d’outils.
Savoir sur quelle étape vit un risque est tout le jeu ; voir
Étape input et
Étape output.
2. Appliquer un guardrail d’agent dans la console
Chaque étape ici est une action de console sur la passerelle hébergée sous votre propre session. Créer et modifier des guardrails nécessite Developer+ dans l’espace de travail. Seul l’appel/v1/* final utilise une clé de relais
sk-orca-... — le guardrail lui-même est entièrement configuré dans la console.
Ouvrir le template
Dans la console, ouvrez Guardrails, cliquez sur le split-button New
guardrail, et choisissez un preset dans la catégorie de templates Agent
— par exemple Markdown Image Block. Il sème la seule règle de block
regex à la bonne étape.Nommer et enregistrer
Donnez-lui un nom (≤ 64 caractères), par exemple
agent-rails, et
enregistrez. Un preset est une graine, pas un verrou — ajoutez les trois
autres règles Agent ou modifiez la regex librement ensuite (voir
§4).Le tester dans le sandbox
Ouvrez l’onglet Test à l’intérieur de l’éditeur, collez un échantillon,
choisissez l’étape correspondante, et exécutez la politique actuelle
localement — aucun appel en amont, aucun quota (voir
§3).
Attacher une clé
Modifiez une clé API et choisissez
agent-rails dans la liste déroulante
Guardrail (définit guardrail_id sur la clé), ou marquez-le comme
défaut de l’espace de travail. Voir
Attacher à une clé et
Défaut de compte.3. Prouvez-le avant d’attacher
Prouvez que la règle se déclenche avant qu’une clé ne pointe vers elle. Ouvrez l’onglet Test, choisissez l’étape output, et collez une réponse qu’une page empoisonnée par un attaquant aurait pu pousser le modèle à émettre :4. Composer et ajuster les règles
Les quatre presets sont des graines. Le mouvement courant est de les combiner en un seul guardrailagent-rails et de resserrer chaque regex à votre stack :
Liste blanche d'URL
Partez de URL Filter, puis modifiez la
regex pour qu’elle bloque
chaque URL sauf vos domaines sanctionnés — inversez la correspondance en
une liste blanche au lieu d’un block total.Rédiger vos propres détecteurs
Ajoutez une règle
regex pour
toute forme de payload qui intéresse vos outils — motifs RE2, temps
linéaire, sans backreferences. Les motifs compilent une fois et sont mis en
cache à travers les requêtes.5. À quoi ressemble un block
Chaque preset Agent utilise l’action block. Une requête bloquée renvoie une HTTP 400 avec le code d’erreurguardrail_blocked et un message nommant le
guardrail et la règle qui s’est déclenchée :
guardrail_blocked.
6. Les guardrails, c’est du contenu ; le firewall, c’est les appels d’outils
Les guardrails d’agent sont une première couche solide, mais ils raisonnent sur des chaînes, pas sur la sémantique des outils. Ils bloquent une ligne shell dans le contenu — ils ne comprennent pas que le modèle a émis untool_call
structuré vers un outil destructeur, ou qu’une requête sortante se dirige vers
une IP de métadonnées.
Cette couche d’appels d’outils est le Firewall : il
évalue les tool_calls émis par le modèle, les tools/call MCP et l’egress
sortant avec des verdicts comme allow / audit / deny /
pending_approval. Les deux se composent — les guardrails filtrent le texte, le
firewall gouverne l’action.
Firewall
Gouvernez les appels d’outils émis par le modèle, les appels MCP et l’egress
avec des verdicts allow / audit / deny / approbation.
Guardrails vs. Firewall
Quand recourir à un guardrail de contenu vs. un firewall d’appels d’outils —
et comment exécuter les deux.
Sécuriser les agents IA
La pile de contrôle d’agent complète : contenu, outils, MCP et egress.
Agence excessive
La menace que ces rails traitent — un agent qui fait plus qu’il ne devrait.
7. Voir ce qui s’est déclenché
Chaque règle qui se déclenche enregistre une correspondance — type de règle, action, étape et une chaîne de détail — qui apparaît dans le flux Matches de l’espace de travail. La sous-chaîne correspondante elle-même n’est enregistrée que lorsque Log raw content est activé, ce qui est désactivé par défaut. Groupez et filtrez le flux par guardrail, type de règle et action pour surveiller le taux de déclenchement de vos règles d’agent et ajuster les faux positifs. Voir Flux des correspondances, Journalisation & confidentialité, et Ajuster les faux positifs.8. Où aller ensuite
Règles à l'étape output
Comment le filtrage de réponse fonctionne pour Markdown Image Block et SQL
Injection in Output.
Détecteurs regex
Rédigez vos propres motifs RE2 pour étendre les règles Agent.
Exfiltration de données
Le canal d’exfil que Markdown Image Block ferme.
Appels d'outils dangereux
Pourquoi un rail de contenu seul ne suffit pas — associez-le au firewall.
