Zum Hauptinhalt springen
Die kurze Antwort: Guardrails steuern Text; die Firewall steuert Aktionen. Sie sind komplementär — ein einzelner Request fließt durch beide — und der schnellste Weg, sie zusammen zu konfigurieren, ist ein Autonomie-Level. Der Rest dieser Seite ist für Fälle, in denen Sie wissen müssen, welche Ebene eine spezifische Bedrohung besitzt.
Erforderliche Rolle. Jedes Workspace-Mitglied kann Policies und den Guardrail-Matches-Feed lesen; der Firewall-Events-Feed erfordert die Rolle Developer. Guardrails oder Firewall-Policies erstellen oder bearbeiten erfordert ebenfalls Developer oder höher.

1. Der Ein-Satz-Unterschied

EbeneSteuertSieht
GuardrailsText — was das Modell liest und schreibtPrompt-Inhalt, Antwort-Inhalt
Agent-FirewallAktionen — was der Agent tutTool-Calls, MCP-Dispatches, ausgehende Netzwerkziele
Guardrails lösen vor dem Upstream-Aufruf (beim Prompt) und danach (bei der Antwort) aus. Die Firewall löst bei jedem Tool-Call aus, den das Modell ausgibt oder den der Agent ausgibt — unabhängig vom Modell oder Anbieter, der die Runde bedient hat.

2. Seite-an-Seite-Vergleich

DimensionGuardrailsAgent-Firewall
SteuertPrompt-Text und Modell-AntworttextTool-Calls, MCP-Dispatches, Egress-Ziele, Agenten-Kosten
SiehtDie Benutzernachricht, System-Prompt und die Antwort des ModellsTool-Name, Aufruf-Argumente, die vom Modell ausgegebenen Tool-Calls, ausgehender Host/IP
Bindet überguardrail_id am API-Keyfirewall_policy_id am API-Key
Regeltypenkeyword, regex, pii, max_chars, external, llm_judge, groundingTool-Name-Glob + Argument-Klauseln + Egress-Scope + Skill-Ownership
Beispiel-BedrohungenPII in Prompts, API-Secrets in Antworten, Jailbreaks, Off-Topic-Ausgaben, überdimensionierter KontextGefährlicher Tool-Call, SSRF, Datenexfiltration, unkontrollierte Agenten-Kostenschleife, nicht genehmigter MCP-Server
Verdikte / Aktionenblock (HTTP 400 guardrail_blocked), mask, flagallow, audit, deny (HTTP 400 firewall_blocked), sanitize, pending_approval, cap_cost
Wann es auslöstInput-Stage: vor dem Modell-Aufruf; Output-Stage: nach der Modell-AntwortBei jedem Tool-Call, den das Modell ausgibt oder der Agent ausgibt
Shadow- / Observe-ModeNein — Guardrails lösen aus oder nichtJa — Shadow-Mode stuft durchsetzende Verdikte auf audit herab für sicheres Rollout

3. Bedrohung → welche Ebene

Verwenden Sie diese Tabelle, um eine neue Sicherheitsanforderung der richtigen Kontrolle zuzuordnen:
BedrohungVerwenden Sie
PII in einer BenutzernachrichtGuardrails — Input-pii-Regel (mask / block)
Secret in der Modell-AntwortGuardrails — Output-Secrets-Regel
Gefährlicher Tool-Call (shell.exec rm -rf /)Firewalldeny auf Tool-Glob + Argument-Klausel
SSRF / Datenexfiltration über ausgehende URLFirewall — Egress-Allow/Deny-Liste
Prompt-Injection aus nicht vertrauenswürdigen InhaltenBeide — Input-Guardrail + Firewall-Allowlist
Secret in einem Tool-ArgumentFirewall sanitize + Guardrails Secrets-Regel
Jailbreak / Policy-UmgehungGuardrailsllm_judge / keyword / regex
Überdimensionierter Prompt oder Token-KostenGuardrailsmax_chars-Regel
Unkontrollierte Agenten-Ausgaben (Kostenschleife)Firewallcap_cost-Verdikt
Nicht genehmigter MCP-ServerFirewall — MCP-Surface-Deny / pending_approval
Sensible Daten aus einem Tool-ErgebnisGuardrails — Output-Regel bei der Antwort
Das tiefe „Warum” für jede Paarung findet sich auf den Threats-Vertiefungsseiten.

4. Beide verwenden — Autonomie-Level konfigurieren sie zusammen

Guardrails und die Firewall sind dafür ausgelegt, zu komponieren, nicht zu konkurrieren. Ein einzelner Request durchläuft beide Ebenen:
  1. Input-Guardrail läuft — Prompt-Text wird geprüft und optional maskiert.
  2. Modell-Aufruf — der (möglicherweise bereinigte) Prompt erreicht das Upstream-Modell.
  3. Firewall — jeder Tool-Call, den das Modell ausgibt, wird ausgewertet.
  4. Output-Guardrail läuft — der Antworttext des Modells wird geprüft.
Der schnellste Weg, beide auf einmal zu konfigurieren, ist ein Autonomie-Level — eine einzelne Einstellung, die atomar eine Firewall-Policy und eine Guardrails-Policy für den gesamten Workspace schreibt, mit Ein-Klick-Undo:
Autonomie-LevelFirewall-HaltungGuardrails-Haltung
tightStandard-Deny; destruktive Shell + SSRF-Egress blockierenPII-Shield + Secrets-Blocker aktiv
balancedStandard-Audit; destruktive Shell verweigernPII-Shield nur Audit (markiert PII)
permissiveKeine durchsetzenden Regeln; Observe-Mode anKeine Durchsetzung
Wenden Sie ein Autonomie-Level von der Firewall-Konsole an (POST /api/workspace/firewall/autonomy, Developer+), und stimmen Sie dann jede Ebene unabhängig ab.

5. Zusammenfassung

Guardrails besitzen den Text; die Firewall besitzt die Aktionen — führen Sie beide aus, lassen Sie das Autonomie-Level sie zusammenschalten, und verschärfen Sie jede Ebene unabhängig, sobald Sie den echten Traffic Ihrer Agenten sehen können.

Guardrails

Regeltypen, PII-Erkennung, LLM-Judge, Eval-Harness und API-Referenz.

Agent-Firewall

Verdikte, Surfaces, Autonomie-Level, HITL-Freigabe und API-Referenz.