Guardrails vs. Agent Firewall — quand utiliser lequel
guardrails vs firewall : distinction en une ligne, comparaison côte à côte, et une correspondance menace-couche pour vous aider à décider quel plan de sécurité OrcaRouter intercepte chaque risque.
La réponse courte : les Guardrails gouvernent le texte ; le Firewall gouverne
les actions. Ils sont complémentaires — une seule requête passe par les deux
— et la façon la plus rapide de les configurer ensemble est un
niveau d’autonomie.Le reste de cette page est pour les cas où vous devez savoir quelle couche
possède une menace spécifique.
Rôle requis. Tout membre de l’espace de travail peut lire les politiques
et le flux Matches des guardrails ; le flux Events du firewall nécessite le
rôle Developer. La création ou la modification de guardrails ou de
politiques firewall nécessite également Developer ou supérieur.
Les Guardrails se déclenchent avant l’appel en amont (sur le prompt) et après
(sur la réponse). Le Firewall se déclenche sur chaque appel d’outil que le
modèle émet ou que l’agent émet — peu importe le modèle ou le fournisseur qui
a servi le tour.
4. Utilisez les deux — les niveaux d’autonomie les configurent ensemble
Les Guardrails et le Firewall sont conçus pour se composer, pas pour se
concurrencer. Une seule requête passe par les deux plans :
Le guardrail d’entrée s’exécute — le texte du prompt est filtré et
optionnellement masqué.
L’appel modèle — le prompt (éventuellement assaini) atteint le modèle
en amont.
Le Firewall — chaque appel d’outil que le modèle émet est évalué.
Le guardrail de sortie s’exécute — le texte de la réponse du modèle
est filtré.
La façon la plus rapide de configurer les deux à la fois est un niveau
d’autonomie — un réglage unique qui écrit atomiquement une politique Firewall
et une politique Guardrails pour tout l’espace de travail, avec annulation en
un clic :
Niveau d’autonomie
Posture Firewall
Posture Guardrails
tight
Refus par défaut ; bloque shell destructeur + egress SSRF
PII Shield + Secrets Blocker activés
balanced
Audit par défaut ; refuse shell destructeur
PII Shield en audit uniquement (signale la PII)
permissive
Pas de règles appliquantes ; mode observe activé
Aucune application
Appliquez un niveau d’autonomie depuis la console Firewall (POST /api/workspace/firewall/autonomy, Developer+), puis ajustez chaque plan
indépendamment à partir de là.
Les Guardrails possèdent le texte ; le Firewall possède les actions — exécutez
les deux, laissez le niveau d’autonomie les connecter, et resserrez chaque plan
indépendamment une fois que vous pouvez voir le trafic réel de vos agents.
Guardrails
Types de règles, détection de PII, juge LLM, harnais d’évaluation et
référence API.
Agent Firewall
Verdicts, surfaces, niveaux d’autonomie, approbation HITL et référence API.