Guardrails vs. Agent-Firewall — wann was verwenden

Die kurze Antwort: Guardrails steuern Text; die Firewall steuert Aktionen. Sie sind komplementär — ein einzelner Request fließt durch beide — und der schnellste Weg, sie zusammen zu konfigurieren, ist ein Autonomie-Level. Der Rest dieser Seite ist für Fälle, in denen Sie wissen müssen, welche Ebene eine spezifische Bedrohung besitzt.

Erforderliche Rolle. Jedes Workspace-Mitglied kann Policies und den Guardrail-Matches-Feed lesen; der Firewall-Events-Feed erfordert die Rolle Developer. Guardrails oder Firewall-Policies erstellen oder bearbeiten erfordert ebenfalls Developer oder höher.

1. Der Ein-Satz-Unterschied

Ebene	Steuert	Sieht
Guardrails	Text — was das Modell liest und schreibt	Prompt-Inhalt, Antwort-Inhalt
Agent-Firewall	Aktionen — was der Agent tut	Tool-Calls, MCP-Dispatches, ausgehende Netzwerkziele

Guardrails lösen vor dem Upstream-Aufruf (beim Prompt) und danach (bei der Antwort) aus. Die Firewall löst bei jedem Tool-Call aus, den das Modell ausgibt oder den der Agent ausgibt — unabhängig vom Modell oder Anbieter, der die Runde bedient hat.

2. Seite-an-Seite-Vergleich

Dimension	Guardrails	Agent-Firewall
Steuert	Prompt-Text und Modell-Antworttext	Tool-Calls, MCP-Dispatches, Egress-Ziele, Agenten-Kosten
Sieht	Die Benutzernachricht, System-Prompt und die Antwort des Modells	Tool-Name, Aufruf-Argumente, die vom Modell ausgegebenen Tool-Calls, ausgehender Host/IP
Bindet über	`guardrail_id` am API-Key	`firewall_policy_id` am API-Key
Regeltypen	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Tool-Name-Glob + Argument-Klauseln + Egress-Scope + Skill-Ownership
Beispiel-Bedrohungen	PII in Prompts, API-Secrets in Antworten, Jailbreaks, Off-Topic-Ausgaben, überdimensionierter Kontext	Gefährlicher Tool-Call, SSRF, Datenexfiltration, unkontrollierte Agenten-Kostenschleife, nicht genehmigter MCP-Server
Verdikte / Aktionen	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Wann es auslöst	Input-Stage: vor dem Modell-Aufruf; Output-Stage: nach der Modell-Antwort	Bei jedem Tool-Call, den das Modell ausgibt oder der Agent ausgibt
Shadow- / Observe-Mode	Nein — Guardrails lösen aus oder nicht	Ja — Shadow-Mode stuft durchsetzende Verdikte auf `audit` herab für sicheres Rollout

3. Bedrohung → welche Ebene

Verwenden Sie diese Tabelle, um eine neue Sicherheitsanforderung der richtigen Kontrolle zuzuordnen:

Bedrohung	Verwenden Sie
PII in einer Benutzernachricht	Guardrails — Input-`pii`-Regel (`mask` / `block`)
Secret in der Modell-Antwort	Guardrails — Output-Secrets-Regel
Gefährlicher Tool-Call (`shell.exec rm -rf /`)	Firewall — `deny` auf Tool-Glob + Argument-Klausel
SSRF / Datenexfiltration über ausgehende URL	Firewall — Egress-Allow/Deny-Liste
Prompt-Injection aus nicht vertrauenswürdigen Inhalten	Beide — Input-Guardrail + Firewall-Allowlist
Secret in einem Tool-Argument	Firewall `sanitize` + Guardrails Secrets-Regel
Jailbreak / Policy-Umgehung	Guardrails — `llm_judge` / keyword / regex
Überdimensionierter Prompt oder Token-Kosten	Guardrails — `max_chars`-Regel
Unkontrollierte Agenten-Ausgaben (Kostenschleife)	Firewall — `cap_cost`-Verdikt
Nicht genehmigter MCP-Server	Firewall — MCP-Surface-Deny / `pending_approval`
Sensible Daten aus einem Tool-Ergebnis	Guardrails — Output-Regel bei der Antwort

Das tiefe „Warum” für jede Paarung findet sich auf den Threats-Vertiefungsseiten.

4. Beide verwenden — Autonomie-Level konfigurieren sie zusammen

Guardrails und die Firewall sind dafür ausgelegt, zu komponieren, nicht zu konkurrieren. Ein einzelner Request durchläuft beide Ebenen:

Input-Guardrail läuft — Prompt-Text wird geprüft und optional maskiert.
Modell-Aufruf — der (möglicherweise bereinigte) Prompt erreicht das Upstream-Modell.
Firewall — jeder Tool-Call, den das Modell ausgibt, wird ausgewertet.
Output-Guardrail läuft — der Antworttext des Modells wird geprüft.

Der schnellste Weg, beide auf einmal zu konfigurieren, ist ein Autonomie-Level — eine einzelne Einstellung, die atomar eine Firewall-Policy und eine Guardrails-Policy für den gesamten Workspace schreibt, mit Ein-Klick-Undo:

Autonomie-Level	Firewall-Haltung	Guardrails-Haltung
`tight`	Standard-Deny; destruktive Shell + SSRF-Egress blockieren	PII-Shield + Secrets-Blocker aktiv
`balanced`	Standard-Audit; destruktive Shell verweigern	PII-Shield nur Audit (markiert PII)
`permissive`	Keine durchsetzenden Regeln; Observe-Mode an	Keine Durchsetzung

Wenden Sie ein Autonomie-Level von der Firewall-Konsole an (POST /api/workspace/firewall/autonomy, Developer+), und stimmen Sie dann jede Ebene unabhängig ab.

5. Zusammenfassung

Guardrails besitzen den Text; die Firewall besitzt die Aktionen — führen Sie beide aus, lassen Sie das Autonomie-Level sie zusammenschalten, und verschärfen Sie jede Ebene unabhängig, sobald Sie den echten Traffic Ihrer Agenten sehen können.

Guardrails

Regeltypen, PII-Erkennung, LLM-Judge, Eval-Harness und API-Referenz.

Agent-Firewall

Verdikte, Surfaces, Autonomie-Level, HITL-Freigabe und API-Referenz.

Enforcement-Modi Scope & Keys

​1. Der Ein-Satz-Unterschied

​2. Seite-an-Seite-Vergleich

​3. Bedrohung → welche Ebene

​4. Beide verwenden — Autonomie-Level konfigurieren sie zusammen

​5. Zusammenfassung

Guardrails

Agent-Firewall

1. Der Ein-Satz-Unterschied

2. Seite-an-Seite-Vergleich

3. Bedrohung → welche Ebene

4. Beide verwenden — Autonomie-Level konfigurieren sie zusammen

5. Zusammenfassung