Guardrails vs. Agent-Firewall — wann was verwenden
Guardrails vs. Firewall: Ein-Satz-Unterschied, Seite-an-Seite-Vergleich und eine Bedrohungs-zu-Ebene-Zuordnung, um zu entscheiden, welche OrcaRouter-Sicherheitsebene welches Risiko abfängt.
Die kurze Antwort: Guardrails steuern Text; die Firewall steuert Aktionen.
Sie sind komplementär — ein einzelner Request fließt durch beide — und der
schnellste Weg, sie zusammen zu konfigurieren, ist ein
Autonomie-Level.Der Rest dieser Seite ist für Fälle, in denen Sie wissen müssen, welche Ebene
eine spezifische Bedrohung besitzt.
Erforderliche Rolle. Jedes Workspace-Mitglied kann Policies und den
Guardrail-Matches-Feed lesen; der Firewall-Events-Feed erfordert die Rolle
Developer. Guardrails oder Firewall-Policies erstellen oder bearbeiten
erfordert ebenfalls Developer oder höher.
Guardrails lösen vor dem Upstream-Aufruf (beim Prompt) und danach (bei der
Antwort) aus. Die Firewall löst bei jedem Tool-Call aus, den das Modell ausgibt
oder den der Agent ausgibt — unabhängig vom Modell oder Anbieter, der die Runde
bedient hat.
4. Beide verwenden — Autonomie-Level konfigurieren sie zusammen
Guardrails und die Firewall sind dafür ausgelegt, zu komponieren, nicht zu
konkurrieren. Ein einzelner Request durchläuft beide Ebenen:
Input-Guardrail läuft — Prompt-Text wird geprüft und optional maskiert.
Modell-Aufruf — der (möglicherweise bereinigte) Prompt erreicht das
Upstream-Modell.
Firewall — jeder Tool-Call, den das Modell ausgibt, wird ausgewertet.
Output-Guardrail läuft — der Antworttext des Modells wird geprüft.
Der schnellste Weg, beide auf einmal zu konfigurieren, ist ein
Autonomie-Level — eine einzelne Einstellung, die atomar eine Firewall-Policy
und eine Guardrails-Policy für den gesamten Workspace schreibt, mit
Ein-Klick-Undo:
Wenden Sie ein Autonomie-Level von der Firewall-Konsole an (POST /api/workspace/firewall/autonomy, Developer+), und stimmen Sie dann jede Ebene
unabhängig ab.
Guardrails besitzen den Text; die Firewall besitzt die Aktionen — führen Sie
beide aus, lassen Sie das Autonomie-Level sie zusammenschalten, und verschärfen
Sie jede Ebene unabhängig, sobald Sie den echten Traffic Ihrer Agenten sehen
können.
Guardrails
Regeltypen, PII-Erkennung, LLM-Judge, Eval-Harness und API-Referenz.
Agent-Firewall
Verdikte, Surfaces, Autonomie-Level, HITL-Freigabe und API-Referenz.