1. Die drei Haltungen auf einen Blick
| Haltung | Was mit Traffic passiert | Mechanismus | Wann verwenden |
|---|---|---|---|
| Observe | Aller Traffic wird erlaubt; Aufrufe ohne Policy werden als Abdeckungslücken geloggt | Workspace-Level Observe-Mode an; Guardrail-Regeln verwenden flag-Aktion; Firewall default_verdict ist audit | Baseline-Entdeckung — verstehen, was Ihre Agenten tatsächlich tun, bevor Sie eine einzige Regel schreiben |
| Shadow | Traffic wird erlaubt; eine Policy wertet aus und würde-blockiert-Aktionen werden als [shadow] would … geloggt | Per-Policy shadow_mode-Flag auf der Firewall-Policy | Sichere Vorproduktions-Validierung — bestätigen, dass eine Policy korrekt auslöst, bevor sie Traffic berührt |
| Enforce | Echte Verdikte gelten — deny blockiert, sanitize redigiert, pending_approval hält | Shadow-Mode aus; Guardrail-Aktionen auf block / mask gesetzt; Firewall-Verdikte sind live | Produktions-Durchsetzung, nachdem Sie die Policy im Shadow verifiziert haben |
Rollenanforderung. Jedes Workspace-Mitglied kann Policies, Einstellungen
und die Discovered-Tools-Ansicht lesen; die Firewall-Feeds Events und
Runs erfordern die Rolle Developer. Einstellungen, Policy-Aktionen
oder
shadow_mode zu ändern erfordert ebenfalls Developer oder höher.2. Observe-Haltung — messen, bevor Sie Regeln schreiben
Die Observe-Haltung ist kein einzelner Schalter. Es ist eine Kombination aus drei unabhängigen Mechanismen, die zusammen „alles erlauben, alles aufzeichnen” erzeugen:Firewall-Observe-Mode (Workspace-Einstellung)
Wenn ein Tool-Call zu überhaupt keiner Policy aufgelöst wird — keine Schlüssel-Bindung und kein Workspace-Default — bestimmt der workspace-weite Observe-Mode der Firewall, was passiert:- Observe-Mode an: der Aufruf wird erlaubt und als Abdeckungs-Lücke geloggt. Die Discovered-Tools-Ansicht füllt sich mit diesen Lücken-Events und zeigt genau, welche Tools Ihre Agenten ausführen, ohne dass eine Regel sie abdeckt.
- Observe-Mode aus: der Aufruf wird stillschweigend erlaubt — byte-identisch zu einem Workspace, der das Feature nie aktiviert hat.
Firewall-audit-Verdikt (Per-Policy-Default)
Wenn eine Policy tatsächlich aufgelöst wird, aber keine Regel auf einen
Tool-Call matcht, gilt das default_verdict der Policy. Der Standardwert für
default_verdict ist audit — den Aufruf erlauben und zur Überprüfung
aufzeichnen. Eine neue Policy ohne Regeln und keine Konfigurationsänderungen
blockiert nichts und erlaubt nichts stillschweigend: sie auditiert alles, was
sie sieht.
audit ist auch ein normales Regel-Verdikt. Eine Regel, die matcht und audit
erzeugt, lässt den Aufruf durch und zeichnet ihn auf — das Guardrail-Audit-Mode-
Analogon für die Firewall.
Guardrail-flag-Aktion (Per-Regel-Aktion)
Auf der Guardrails-Seite ist die flag-Aktion das Observe-Äquivalent: die
Regel löst aus, ein Match wird im Matches-Feed aufgezeichnet, und der Request
fährt unverändert fort. Kein Block. Keine Redigierung. Verwenden Sie flag,
wenn Sie eine Regel messen möchten — wie oft sie auslöst und auf was — bevor
Sie sich auf block oder mask festlegen.
Zusammen erzeugen diese drei die Observe-Haltung: Observe-Mode fängt nicht abgedeckte Tool-Calls ab;
audit-Verdikte decken Tool-Calls unter einer Policy
ab, aber noch nicht unter einer spezifischen Regel; flag-Aktionen decken
Guardrail-Prüfungen ab, die Sie noch nicht bereit sind durchzusetzen.
3. Shadow-Haltung — validieren, bevor Sie durchsetzen
Shadow-Mode ist ein per-Policy-Flag (shadow_mode: true) auf einer
Firewall-Policy. Wenn er an ist:
- Die Policy wertet jeden Tool-Call genau so aus, wie sie es in Produktion täte — Regeln werden gematcht, Verdikte berechnet, Argument-Prädikate getestet.
- Jedes durchsetzende Verdikt (
deny,sanitize,pending_approval) wird aufauditherabgestuft, bevor es das Tool erreicht. - Der geloggte Grund wird mit
[shadow] would …vorangestellt, damit Sie im Events-Feed genau sehen können, was blockiert, bereinigt oder zurückgehalten worden wäre.
Guardrails haben kein
shadow_mode-Äquivalent auf Policy-Ebene — verwenden
Sie die flag-Aktion pro Regel, um individuelle Guardrail-Prüfungen zu
beobachten, bevor Sie zu block oder mask wechseln.4. Enforce-Haltung — echte Verdikte, echte Konsequenzen
In der Enforce-Haltung wird nichts herabgestuft:- Firewall-
deny→ der Agent sieht einen Tool-Fehler (MCP) oder HTTP 400firewall_blocked(Inbound-Surface). Der Fehler benennt das Tool und den Grund. Als skip-retry markiert. - Firewall-
sanitize→ gematchte Teilstrings werden aus den Tool-Argumenten redigiert und der bereinigte Aufruf wird weitergeleitet. - Firewall-
pending_approval→ der Aufruf wird zurückgehalten; der Agent erhält HTTP 400firewall_approval_pendingund eine Approval-ID zum Pollen. - Guardrail-
block→ HTTP 400guardrail_blocked, benennt das Guardrail und die ausgelöste Regel. Kostet kein Kontingent. - Guardrail-
mask→ der Treffer wird redigiert (z. B.jane@acme.com→[EMAIL]) und der Request fährt mit dem bereinigten Text fort.
shadow_mode auf der
Firewall-Policy aus und ändern Sie Guardrail-Regelaktionen von flag auf
block oder mask je nach Bedarf.
5. Empfohlenes Rollout
Observe — entdecken, was Ihre Agenten tun
Workspace-Observe-Mode einschalten (
PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Firewall
ohne Policy lassen (oder eine Policy, deren default_verdict audit ist).
flag-Aktionen zu Guardrail-Regeln hinzufügen, die Sie messen möchten.Beobachten Sie, wie sich die Discovered-Tools-Ansicht mit jedem
Tool-Call Ihrer Agenten füllt, markiert als covered oder gap.
Verwenden Sie das als Input für das Schreiben Ihrer ersten Policy-Regeln —
Sie schreiben Regeln für echten Traffic, nicht für hypothetischen.Lassen Sie dies laufen, bis die Discovered-Tools-Ansicht sich stabilisiert
und Sie genug Daten haben, um absichtliche Regeln zu schreiben.Shadow — validieren, bevor Sie durchsetzen
Eine Firewall-Policy mit
shadow_mode: true verfassen. An die Schlüssel
binden, die Sie steuern möchten (oder als Workspace-Default setzen). Für
Guardrails Regelaktionen in dieser Phase als flag belassen.Die Policy wertet jetzt jeden echten Tool-Call aus und loggt, was sie täte.
Öffnen Sie die Events- und Runs-Ansichten und filtern Sie nach
[shadow]-Präfix. Bestätigen Sie:- Sie löst auf den Tools und Argument-Mustern aus, die Sie beabsichtigt haben.
- Sie löst nicht auf etwas aus, das Sie erlauben möchten (falsche Positive).
Enforce — den Schalter umlegen
shadow_mode: false auf der Policy setzen. Für alle Guardrail-Regeln, die
Sie mit flag beobachtet haben, die Aktion auf block oder mask ändern
je nach Bedarf.Den Events-Feed in der ersten Stunde auf unerwartete Blocks überwachen.
Die Undo-Aktion im Autonomie-Audit-Log lässt Sie den vorherigen Zustand
mit einem Klick wiederherstellen, wenn Sie zurückrollen müssen.6. Autonomie-Level — alles auf einmal setzen
Policies Regel für Regel abzustimmen ist der präzise Weg. Autonomie-Level sind der schnelle — ein einzelner Regler, der die Firewall- und Guardrails-Haltung Ihres Workspaces atomar in einer Transaktion setzt, mit Ein-Klick-Undo:| Level | Erzeugte Haltung |
|---|---|
permissive | Observe-Haltung: keine durchsetzende Policy, keine Guardrails, Workspace-Observe-Mode an — Sie sehen alles, nichts wird blockiert. Entspricht dem Observe-Schritt oben. |
balanced | Standard-Verdikt audit, aber destruktive Shell wird verweigert; PII-Shield läuft im Nur-Audit-Modus (markiert PII); Observe-Mode aus. Die empfohlene Ausgangshaltung, sobald Sie Ihre Traffic-Form kennen. |
tight | Volle Durchsetzung: Standard-Deny, mit destruktiver Shell und SSRF-Egress verweigert; PII-Shield- + Secrets-Blocker-Guardrails durchgesetzt (Requests auf PII und Secrets prüfen); Observe-Mode aus. |
POST /api/workspace/firewall/autonomy (Developer+). Der
Simulate-Endpunkt (GET /api/workspace/firewall/simulate?level=) zeigt
eine Vorschau, was eine Level-Änderung täte, bevor Sie sie anwenden.
Autonomie-Level sind eine Komfort-Ebene über denselben oben beschriebenen
Mechanismen — sie setzen
default_verdict, Observe-Mode, die Firewall-Regeln
und Guardrail-Regelaktionen. Sie schalten shadow_mode nicht um; dieser
bleibt eine manuelle per-Policy-Kontrolle. Sie können individuelle
Einstellungen nach Anwenden eines Levels jederzeit überschreiben.7. Mechanismus-Map — welche Einstellung was kontrolliert
Diese Tabelle ist die maßgebliche Referenz. Die vier Begriffe sind unterschiedlich — verwechseln Sie sie nicht:| Begriff | Art | Was es kontrolliert |
|---|---|---|
| Observe-Mode | Workspace-Einstellung | Verhalten, wenn ein Tool-Call zu keiner Policy aufgelöst wird. An → als Lücke loggen (Discovered Tools). Aus → stillschweigendes Allow. |
audit-Verdikt | Policy- / Regel-Verdikt | Verhalten für einen Tool-Call unter einer Policy, der matcht (oder auf Default fällt). Allow + aufzeichnen. Das Standard-default_verdict. |
flag-Aktion | Guardrail-Regelaktion | Guardrail-Prüfung erlaubt Traffic und zeichnet einen Match auf. Die Observe-without-Enforce-Aktion für Guardrails. |
shadow_mode | Per-Firewall-Policy-Flag | Alle durchsetzenden Verdikte (deny/sanitize/pending_approval) auf audit herabstufen und Grund mit [shadow] would … voranstellen. |
Secure-Agents-Baseline
Die empfohlene Ausgangshaltung und das Fünf-Minuten-Setup für
Zero-Trust-Agenten-Sicherheit.
Agent-Firewall
Vollständige Referenz für Policies, Regeln, Verdikte, Shadow-Mode und
das MCP-Gateway.
