Enforcement-Modi: Observe, Shadow & Enforce

Bevor eine Regel Produktions-Traffic blockiert, möchten Sie wissen, dass sie bei den richtigen Dingen auslöst und bei nichts anderem. OrcaRouter gibt Ihnen drei Haltungen — Observe, Shadow und Enforce — die Ihnen ein inkrementelles Ausrollen ermöglichen, mit Sichtbarkeit bei jedem Schritt und ohne Überraschungen. Diese Seite erklärt, was jede Haltung mechanisch bedeutet, wie man durch sie wechselt und wie Autonomie-Level das alles in einem Schritt setzen.

1. Die drei Haltungen auf einen Blick

Haltung	Was mit Traffic passiert	Mechanismus	Wann verwenden
Observe	Aller Traffic wird erlaubt; Aufrufe ohne Policy werden als Abdeckungslücken geloggt	Workspace-Level Observe-Mode an; Guardrail-Regeln verwenden `flag`-Aktion; Firewall `default_verdict` ist `audit`	Baseline-Entdeckung — verstehen, was Ihre Agenten tatsächlich tun, bevor Sie eine einzige Regel schreiben
Shadow	Traffic wird erlaubt; eine Policy wertet aus und würde-blockiert-Aktionen werden als `[shadow] would …` geloggt	Per-Policy `shadow_mode`-Flag auf der Firewall-Policy	Sichere Vorproduktions-Validierung — bestätigen, dass eine Policy korrekt auslöst, bevor sie Traffic berührt
Enforce	Echte Verdikte gelten — deny blockiert, sanitize redigiert, pending_approval hält	Shadow-Mode aus; Guardrail-Aktionen auf `block` / `mask` gesetzt; Firewall-Verdikte sind live	Produktions-Durchsetzung, nachdem Sie die Policy im Shadow verifiziert haben

Rollenanforderung. Jedes Workspace-Mitglied kann Policies, Einstellungen und die Discovered-Tools-Ansicht lesen; die Firewall-Feeds Events und Runs erfordern die Rolle Developer. Einstellungen, Policy-Aktionen oder shadow_mode zu ändern erfordert ebenfalls Developer oder höher.

2. Observe-Haltung — messen, bevor Sie Regeln schreiben

Die Observe-Haltung ist kein einzelner Schalter. Es ist eine Kombination aus drei unabhängigen Mechanismen, die zusammen „alles erlauben, alles aufzeichnen” erzeugen:

Firewall-Observe-Mode (Workspace-Einstellung)

Wenn ein Tool-Call zu überhaupt keiner Policy aufgelöst wird — keine Schlüssel-Bindung und kein Workspace-Default — bestimmt der workspace-weite Observe-Mode der Firewall, was passiert:

Observe-Mode an: der Aufruf wird erlaubt und als Abdeckungs-Lücke geloggt. Die Discovered-Tools-Ansicht füllt sich mit diesen Lücken-Events und zeigt genau, welche Tools Ihre Agenten ausführen, ohne dass eine Regel sie abdeckt.
Observe-Mode aus: der Aufruf wird stillschweigend erlaubt — byte-identisch zu einem Workspace, der das Feature nie aktiviert hat.

Observe-Mode ist die Lückenerkennung-Surface. Er feuert nur, wenn keine Policy aufgelöst wird. Er ist nicht dasselbe wie eine Policy, die auf Audit gesetzt ist.

Firewall-`audit`-Verdikt (Per-Policy-Default)

Wenn eine Policy tatsächlich aufgelöst wird, aber keine Regel auf einen Tool-Call matcht, gilt das default_verdict der Policy. Der Standardwert für default_verdict ist audit — den Aufruf erlauben und zur Überprüfung aufzeichnen. Eine neue Policy ohne Regeln und keine Konfigurationsänderungen blockiert nichts und erlaubt nichts stillschweigend: sie auditiert alles, was sie sieht. audit ist auch ein normales Regel-Verdikt. Eine Regel, die matcht und audit erzeugt, lässt den Aufruf durch und zeichnet ihn auf — das Guardrail-Audit-Mode- Analogon für die Firewall.

Guardrail-`flag`-Aktion (Per-Regel-Aktion)

Auf der Guardrails-Seite ist die flag-Aktion das Observe-Äquivalent: die Regel löst aus, ein Match wird im Matches-Feed aufgezeichnet, und der Request fährt unverändert fort. Kein Block. Keine Redigierung. Verwenden Sie flag, wenn Sie eine Regel messen möchten — wie oft sie auslöst und auf was — bevor Sie sich auf block oder mask festlegen.

Zusammen erzeugen diese drei die Observe-Haltung: Observe-Mode fängt nicht abgedeckte Tool-Calls ab; audit-Verdikte decken Tool-Calls unter einer Policy ab, aber noch nicht unter einer spezifischen Regel; flag-Aktionen decken Guardrail-Prüfungen ab, die Sie noch nicht bereit sind durchzusetzen.

3. Shadow-Haltung — validieren, bevor Sie durchsetzen

Shadow-Mode ist ein per-Policy-Flag (shadow_mode: true) auf einer Firewall-Policy. Wenn er an ist:

Die Policy wertet jeden Tool-Call genau so aus, wie sie es in Produktion täte — Regeln werden gematcht, Verdikte berechnet, Argument-Prädikate getestet.
Jedes durchsetzende Verdikt (deny, sanitize, pending_approval) wird auf audit herabgestuft, bevor es das Tool erreicht.
Der geloggte Grund wird mit [shadow] would … vorangestellt, damit Sie im Events-Feed genau sehen können, was blockiert, bereinigt oder zurückgehalten worden wäre.

Shadow-Mode ist Ihr sicherer Rollout-Schalter. Schreiben Sie eine Policy, schalten Sie Shadow an, richten Sie echten Traffic darauf, beobachten Sie die Events- und Runs-Ansichten für einige Stunden oder Tage, bestätigen Sie, dass die Policy auf den richtigen Tools und nichts Unerwartetes auslöst, und schalten Sie dann Shadow aus, um mit der Durchsetzung zu beginnen.

Guardrails haben kein shadow_mode-Äquivalent auf Policy-Ebene — verwenden Sie die flag-Aktion pro Regel, um individuelle Guardrail-Prüfungen zu beobachten, bevor Sie zu block oder mask wechseln.

4. Enforce-Haltung — echte Verdikte, echte Konsequenzen

In der Enforce-Haltung wird nichts herabgestuft:

Firewall-deny → der Agent sieht einen Tool-Fehler (MCP) oder HTTP 400 firewall_blocked (Inbound-Surface). Der Fehler benennt das Tool und den Grund. Als skip-retry markiert.
Firewall-sanitize → gematchte Teilstrings werden aus den Tool-Argumenten redigiert und der bereinigte Aufruf wird weitergeleitet.
Firewall-pending_approval → der Aufruf wird zurückgehalten; der Agent erhält HTTP 400 firewall_approval_pending und eine Approval-ID zum Pollen.
Guardrail-block → HTTP 400 guardrail_blocked, benennt das Guardrail und die ausgelöste Regel. Kostet kein Kontingent.
Guardrail-mask → der Treffer wird redigiert (z. B. jane@acme.com → [EMAIL]) und der Request fährt mit dem bereinigten Text fort.

Um die Enforce-Haltung zu erreichen: schalten Sie shadow_mode auf der Firewall-Policy aus und ändern Sie Guardrail-Regelaktionen von flag auf block oder mask je nach Bedarf.

5. Empfohlenes Rollout

Observe — entdecken, was Ihre Agenten tun

Workspace-Observe-Mode einschalten (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Firewall ohne Policy lassen (oder eine Policy, deren default_verdict audit ist). flag-Aktionen zu Guardrail-Regeln hinzufügen, die Sie messen möchten.Beobachten Sie, wie sich die Discovered-Tools-Ansicht mit jedem Tool-Call Ihrer Agenten füllt, markiert als covered oder gap. Verwenden Sie das als Input für das Schreiben Ihrer ersten Policy-Regeln — Sie schreiben Regeln für echten Traffic, nicht für hypothetischen.Lassen Sie dies laufen, bis die Discovered-Tools-Ansicht sich stabilisiert und Sie genug Daten haben, um absichtliche Regeln zu schreiben.

Shadow — validieren, bevor Sie durchsetzen

Eine Firewall-Policy mit shadow_mode: true verfassen. An die Schlüssel binden, die Sie steuern möchten (oder als Workspace-Default setzen). Für Guardrails Regelaktionen in dieser Phase als flag belassen.Die Policy wertet jetzt jeden echten Tool-Call aus und loggt, was sie täte. Öffnen Sie die Events- und Runs-Ansichten und filtern Sie nach [shadow]-Präfix. Bestätigen Sie:

Sie löst auf den Tools und Argument-Mustern aus, die Sie beabsichtigt haben.
Sie löst nicht auf etwas aus, das Sie erlauben möchten (falsche Positive).

Regeln abstimmen, erneut beobachten, wiederholen. Wenn das Shadow-Log richtig aussieht, weitermachen.

Enforce — den Schalter umlegen

shadow_mode: false auf der Policy setzen. Für alle Guardrail-Regeln, die Sie mit flag beobachtet haben, die Aktion auf block oder mask ändern je nach Bedarf.Den Events-Feed in der ersten Stunde auf unerwartete Blocks überwachen. Die Undo-Aktion im Autonomie-Audit-Log lässt Sie den vorherigen Zustand mit einem Klick wiederherstellen, wenn Sie zurückrollen müssen.

6. Autonomie-Level — alles auf einmal setzen

Policies Regel für Regel abzustimmen ist der präzise Weg. Autonomie-Level sind der schnelle — ein einzelner Regler, der die Firewall- und Guardrails-Haltung Ihres Workspaces atomar in einer Transaktion setzt, mit Ein-Klick-Undo:

Level	Erzeugte Haltung
`permissive`	Observe-Haltung: keine durchsetzende Policy, keine Guardrails, Workspace-Observe-Mode an — Sie sehen alles, nichts wird blockiert. Entspricht dem Observe-Schritt oben.
`balanced`	Standard-Verdikt `audit`, aber destruktive Shell wird verweigert; PII-Shield läuft im Nur-Audit-Modus (markiert PII); Observe-Mode aus. Die empfohlene Ausgangshaltung, sobald Sie Ihre Traffic-Form kennen.
`tight`	Volle Durchsetzung: Standard-Deny, mit destruktiver Shell und SSRF-Egress verweigert; PII-Shield- + Secrets-Blocker-Guardrails durchgesetzt (Requests auf PII und Secrets prüfen); Observe-Mode aus.

Anwenden über POST /api/workspace/firewall/autonomy (Developer+). Der Simulate-Endpunkt (GET /api/workspace/firewall/simulate?level=) zeigt eine Vorschau, was eine Level-Änderung täte, bevor Sie sie anwenden.

Autonomie-Level sind eine Komfort-Ebene über denselben oben beschriebenen Mechanismen — sie setzen default_verdict, Observe-Mode, die Firewall-Regeln und Guardrail-Regelaktionen. Sie schalten shadow_mode nicht um; dieser bleibt eine manuelle per-Policy-Kontrolle. Sie können individuelle Einstellungen nach Anwenden eines Levels jederzeit überschreiben.

7. Mechanismus-Map — welche Einstellung was kontrolliert

Diese Tabelle ist die maßgebliche Referenz. Die vier Begriffe sind unterschiedlich — verwechseln Sie sie nicht:

Begriff	Art	Was es kontrolliert
Observe-Mode	Workspace-Einstellung	Verhalten, wenn ein Tool-Call zu keiner Policy aufgelöst wird. An → als Lücke loggen (Discovered Tools). Aus → stillschweigendes Allow.
`audit`-Verdikt	Policy- / Regel-Verdikt	Verhalten für einen Tool-Call unter einer Policy, der matcht (oder auf Default fällt). Allow + aufzeichnen. Das Standard-`default_verdict`.
`flag`-Aktion	Guardrail-Regelaktion	Guardrail-Prüfung erlaubt Traffic und zeichnet einen Match auf. Die Observe-without-Enforce-Aktion für Guardrails.
`shadow_mode`	Per-Firewall-Policy-Flag	Alle durchsetzenden Verdikte (deny/sanitize/pending_approval) auf `audit` herabstufen und Grund mit `[shadow] would …` voranstellen.

Secure-Agents-Baseline

Die empfohlene Ausgangshaltung und das Fünf-Minuten-Setup für Zero-Trust-Agenten-Sicherheit.

Agent-Firewall

Vollständige Referenz für Policies, Regeln, Verdikte, Shadow-Mode und das MCP-Gateway.

Enforcement-Modi sind kein binäres An/Aus. Wechseln Sie durch Observe → Shadow → Enforce, und Ihre Regeln werden auf echtem Traffic verifiziert, bevor sie ihn je blockieren.

​1. Die drei Haltungen auf einen Blick

​2. Observe-Haltung — messen, bevor Sie Regeln schreiben

​Firewall-Observe-Mode (Workspace-Einstellung)

​Firewall-audit-Verdikt (Per-Policy-Default)

​Guardrail-flag-Aktion (Per-Regel-Aktion)

​3. Shadow-Haltung — validieren, bevor Sie durchsetzen

​4. Enforce-Haltung — echte Verdikte, echte Konsequenzen

​5. Empfohlenes Rollout

​6. Autonomie-Level — alles auf einmal setzen

​7. Mechanismus-Map — welche Einstellung was kontrolliert

Secure-Agents-Baseline

Agent-Firewall

1. Die drei Haltungen auf einen Blick

2. Observe-Haltung — messen, bevor Sie Regeln schreiben

Firewall-Observe-Mode (Workspace-Einstellung)

Firewall-`audit`-Verdikt (Per-Policy-Default)

Guardrail-`flag`-Aktion (Per-Regel-Aktion)

3. Shadow-Haltung — validieren, bevor Sie durchsetzen

4. Enforce-Haltung — echte Verdikte, echte Konsequenzen

5. Empfohlenes Rollout

6. Autonomie-Level — alles auf einmal setzen

7. Mechanismus-Map — welche Einstellung was kontrolliert