Guardrails vs. Agent Firewall — quand utiliser lequel

La réponse courte : les Guardrails gouvernent le texte ; le Firewall gouverne les actions. Ils sont complémentaires — une seule requête passe par les deux — et la façon la plus rapide de les configurer ensemble est un niveau d’autonomie. Le reste de cette page est pour les cas où vous devez savoir quelle couche possède une menace spécifique.

Rôle requis. Tout membre de l’espace de travail peut lire les politiques et le flux Matches des guardrails ; le flux Events du firewall nécessite le rôle Developer. La création ou la modification de guardrails ou de politiques firewall nécessite également Developer ou supérieur.

1. La distinction en une ligne

Couche	Gouverne	Voit
Guardrails	Texte — ce que le modèle lit et écrit	Contenu du prompt, contenu de la réponse
Agent Firewall	Actions — ce que l’agent fait	Appels d’outils, dispatches MCP, destinations réseau sortantes

Les Guardrails se déclenchent avant l’appel en amont (sur le prompt) et après (sur la réponse). Le Firewall se déclenche sur chaque appel d’outil que le modèle émet ou que l’agent émet — peu importe le modèle ou le fournisseur qui a servi le tour.

2. Comparaison côte à côte

Dimension	Guardrails	Agent Firewall
Gouverne	Texte du prompt et texte de la réponse du modèle	Appels d’outils, dispatches MCP, destinations d’egress, coût de l’agent
Voit	Le message utilisateur, le prompt système, et la réponse du modèle	Nom de l’outil, arguments de l’appel, les appels d’outils que le modèle émet, host/IP sortant
S’attache via	`guardrail_id` sur la clé API	`firewall_policy_id` sur la clé API
Types de règles	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Glob de nom d’outil + clauses d’arguments + portée d’egress + propriété de skill
Exemples de menaces	PII dans les prompts, secrets API dans les réponses, jailbreaks, sortie hors-sujet, contexte surdimensionné	Appel d’outil dangereux, SSRF, exfiltration de données, boucle de coût d’agent incontrôlée, serveur MCP non approuvé
Verdicts / actions	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Quand il se déclenche	Étape input : avant l’appel modèle ; étape output : après que le modèle répond	Sur chaque appel d’outil que le modèle émet ou que l’agent émet
Mode shadow / observe	Non — les guardrails se déclenchent ou ne se déclenchent pas	Oui — le mode shadow rétrograde les verdicts appliquants en `audit` pour un déploiement sûr

3. Menace → quelle couche

Utilisez ce tableau pour orienter une nouvelle exigence de sécurité vers le bon contrôle :

Menace	Utilisez
PII dans un message utilisateur	Guardrails — règle `pii` en entrée (`mask` / `block`)
Secret dans la réponse du modèle	Guardrails — règle de secrets en sortie
Appel d’outil dangereux (`shell.exec rm -rf /`)	Firewall — `deny` sur glob d’outil + clause d’argument
SSRF / exfiltration de données via URL sortante	Firewall — liste allow/deny d’egress
Injection de prompt depuis du contenu non fiable	Les deux — guardrail d’entrée + liste blanche firewall
Secret dans un argument d’outil	Firewall `sanitize` + règle de secrets Guardrails
Jailbreak / contournement de politique	Guardrails — `llm_judge` / keyword / regex
Prompt surdimensionné ou coût en tokens	Guardrails — règle `max_chars`
Dépenses d’agent incontrôlées (boucle de coût)	Firewall — verdict `cap_cost`
Serveur MCP non approuvé	Firewall — deny surface MCP / `pending_approval`
Données sensibles d’un résultat d’outil	Guardrails — règle de sortie sur la réponse

Le « pourquoi » en profondeur pour chaque association se trouve sur les pages d’approfondissement des Menaces.

4. Utilisez les deux — les niveaux d’autonomie les configurent ensemble

Les Guardrails et le Firewall sont conçus pour se composer, pas pour se concurrencer. Une seule requête passe par les deux plans :

Le guardrail d’entrée s’exécute — le texte du prompt est filtré et optionnellement masqué.
L’appel modèle — le prompt (éventuellement assaini) atteint le modèle en amont.
Le Firewall — chaque appel d’outil que le modèle émet est évalué.
Le guardrail de sortie s’exécute — le texte de la réponse du modèle est filtré.

La façon la plus rapide de configurer les deux à la fois est un niveau d’autonomie — un réglage unique qui écrit atomiquement une politique Firewall et une politique Guardrails pour tout l’espace de travail, avec annulation en un clic :

Niveau d’autonomie	Posture Firewall	Posture Guardrails
`tight`	Refus par défaut ; bloque shell destructeur + egress SSRF	PII Shield + Secrets Blocker activés
`balanced`	Audit par défaut ; refuse shell destructeur	PII Shield en audit uniquement (signale la PII)
`permissive`	Pas de règles appliquantes ; mode observe activé	Aucune application

Appliquez un niveau d’autonomie depuis la console Firewall (POST /api/workspace/firewall/autonomy, Developer+), puis ajustez chaque plan indépendamment à partir de là.

5. Résumé

Les Guardrails possèdent le texte ; le Firewall possède les actions — exécutez les deux, laissez le niveau d’autonomie les connecter, et resserrez chaque plan indépendamment une fois que vous pouvez voir le trafic réel de vos agents.

Guardrails

Types de règles, détection de PII, juge LLM, harnais d’évaluation et référence API.

Agent Firewall

Verdicts, surfaces, niveaux d’autonomie, approbation HITL et référence API.

Modes d'application Portée & clés

​1. La distinction en une ligne

​2. Comparaison côte à côte

​3. Menace → quelle couche

​4. Utilisez les deux — les niveaux d’autonomie les configurent ensemble

​5. Résumé

Guardrails

Agent Firewall

1. La distinction en une ligne

2. Comparaison côte à côte

3. Menace → quelle couche

4. Utilisez les deux — les niveaux d’autonomie les configurent ensemble

5. Résumé