https://api.orcarouter.ai/v1/...
exakt wie zuvor auf.
Neu beim Modell? Lesen Sie
Enforcement-Modi dafür, was jede
Haltung mechanisch tut, und die
Secure-Agents-Baseline dafür,
was jedes Autonomie-Level setzt. Diese Seite ist die Sequenz — die Reihenfolge,
in der Sie die Schalter umlegen.
1. Die KI-Sicherheits-Ausrollung in drei Schritten
Die ganze Ausrollung tauscht Autonomie gegen Sicherheit in drei Schritten, jeder gegen Live-Traffic verifiziert, bevor der nächste folgt:Observe
Alles erlauben, alles loggen. Nicht abgedeckte Tool-Calls landen in
Discovered Tools; Guardrail-
flag-Regeln zeichnen Matches auf, ohne den
Traffic zu ändern. Sie lernen die echte Form Ihres Agenten.Shadow
Eine echte Policy wertet jeden Aufruf aus, aber jedes durchsetzende Verdikt
wird auf
audit herabgestuft und [shadow] would … geloggt. Sie sehen
genau, was blockieren würde — mit nichts tatsächlich blockiert.Enforce
Shadow aus.
deny blockiert, mask redigiert, pending_approval hält
zurück. Die Autonomie geht von weit (balanced) zu eng (tight), und Ihr
Agent ist gesteuert.2. Schritt eins — observe (Autonomie = permissive)
Starten Sie so weit, wie es geht. Wenden Sie daspermissive-Autonomie-Level
aus Firewall → Posture an (Developer+) — oder
POST /api/workspace/firewall/autonomy. Es aktiviert den
Workspace-Observe-Mode und lässt keine durchsetzende Policy, sodass jeder
Aufruf erlaubt ist und jeder nicht abgedeckte Aufruf als Abdeckungs-Lücke
geloggt wird.
- Firewall → Discovered Tools (Member) — jedes Tool, das Ihr Agent aufruft, geflaggt als covered oder gap. Das ist der Input für Ihre Regeln: Sie sind dabei, Policy für Traffic zu schreiben, der tatsächlich passiert, nicht für Hypothetisches.
- Guardrails → Matches (Member) — wenn Sie
flag-Aktions-Regeln hinzugefügt haben, jeder Match, den sie aufzeichnen, ohne den Request zu berühren.
3. Schritt zwei — shadow (eine echte Policy, null Blockieren)
Verfassen Sie nun die Policy, die Sie tatsächlich wollen — Tool-Globs, Argument-Klauseln, Egress-Listen, einecap_cost-Obergrenze — und schalten Sie
shadow_mode ein, bevor Sie sie anhängen. (Bauen Sie Regeln aus
Firewall-Regeln; das vollständige Policy-Modell
steht in der Firewall-Referenz.)
shadow_mode: true werden dieses deny und dieses cap_cost beide zur
Auswertungszeit auf audit herabgestuft — die Engine berechnet das echte
Verdikt, loggt es vorangestellt mit [shadow] would … und lässt den Aufruf
durch. Hängen Sie die Policy an die Schlüssel an, die Sie ausrollen (setzen Sie
firewall_policy_id auf dem Schlüssel), oder machen Sie sie zum
Workspace-Default.
Lesen Sie dann Firewall → Events / Runs (Developer+) gefiltert auf das
[shadow]-Präfix und bestätigen Sie beide Seiten:
Es feuert, wo Sie es meinten
Es feuert, wo Sie es meinten
Jeder
shell.exec-Aufruf zeigt [shadow] would deny. Jeder Run, der Ihre
Obergrenze überschreitet, zeigt [shadow] would cap_cost. Die Policy sieht
den Traffic, für den Sie sie gebaut haben.Es feuert NICHT, wo Sie es nicht meinten
Es feuert NICHT, wo Sie es nicht meinten
Kein legitimes Tool taucht mit einem Would-block-Verdikt auf. Das ist die
False-Positive-Prüfung — der Grund, warum Shadow existiert. Wenn ein Tool,
das Sie brauchen, geflaggt ist, fixen Sie die Regel und beobachten Sie
erneut, bevor Sie je durchsetzen.
4. Schritt drei — enforce (Autonomie balanced, dann tight)
Wenn das Shadow-Log richtig aussieht, setzen Sie in zwei Stufen durch, nicht in einer. Springen Sie nicht direkt zu Default-Deny. Zuerstbalanced. Das ist die empfohlene erste durchsetzende Haltung: Das
Firewall-Default-Verdikt ist audit, aber die destruktivsten Aktionen (wie
destruktive Shell) werden abgelehnt, und das PII-Shield-Guardrail läuft
audit-only — es flaggt PII, ohne sie noch zu maskieren. Sie blockieren nun
das Schlimmste, während Sie den Rest noch beobachten.
Schalten Sie im selben Schritt shadow_mode aus auf Ihrer eigenen Policy,
sodass ihre deny- / cap_cost-Verdikte neben der Baseline live gehen.
[shadow]-Präfix. Ein abgelehnter Tool-Call gibt HTTP 400 firewall_blocked
zurück; er ist skip-retry und kostet keine Modell-Tokens.
Dann tight. Sobald balanced ruhig ist, gehen Sie zu Default-Deny. Das
tight-Level lehnt per Default ab, lehnt destruktive Shell und
SSRF-Egress ab und setzt PII Shield + Secrets Blocker durch — PII wird auf
dem Request maskiert, bevor das Modell ihn sieht, und Secrets in Ihren Requests
werden blockiert. Ein blockierter Prompt gibt HTTP 400 guardrail_blocked
zurück, kostet kein Kontingent und ist skip-retry.
| Stufe | Firewall (Aktionen) | Guardrails (Text) | Was Sie beweisen |
|---|---|---|---|
permissive | Observe; nichts blockiert | nur flag | Echte Traffic-Form |
balanced | Default audit; destruktive Shell abgelehnt | PII geflaggt | Worst Case ist gestoppt |
tight | Default-Deny; Shell + fetch-förmige Tools (SSRF) abgelehnt | PII maskiert, Secrets blockiert | Volles Zero Trust |
Streaming-Vorbehalt für PII. Unter
tight maskiert PII Shield PII auf dem
Request, bevor das Modell ihn sieht — das ist live. Output-seitiges
Masking einer Streaming-Antwort ist noch nicht live; ein Output-block wird
auf Streaming durchgesetzt (der Scanner kappt den Stream). Wenn Sie auf das
Redigieren von Modell-Output angewiesen sind, verifizieren Sie Ihre
Stage-/Stream-Kombination zuerst im Guardrail-Test-Tab. Siehe
Guardrails.5. Die Notluke — Ein-Klick-Undo
Jede Autonomie-Änderung ist eine einzelne Transaktion, die Ihre vorherige Haltung snapshottet, sodass Sie direkt aus Firewall → Posture zurückrollen können (oderPOST /api/workspace/firewall/autonomy/undo/:audit_id). Sie können
auch einfach ein weicheres Level erneut anwenden — tight zurück auf
balanced, oder balanced zurück auf permissive — jederzeit.
6. Woher die Verdikte jedes Schritts kommen
Die Ausrollung blockiert nie etwas, worum Sie nicht gebeten haben, weil jede Haltung auf einen expliziten, beobachtbaren Mechanismus abbildet:| Haltung | Mechanismus | Ergebnis |
|---|---|---|
| Observe | Workspace firewall_observe_mode an + Guardrail flag | Erlauben + Lücken / Matches loggen |
| Shadow | Pro-Policy shadow_mode | Echtes Verdikt berechnet, auf audit herabgestuft, [shadow] would … geloggt |
| Enforce | shadow_mode aus + tight/balanced-Autonomie | deny / mask / cap_cost gehen live |
audit-Verdikt, die flag-Aktion und
shadow_mode — sind distinkte Schalter, Seite an Seite dokumentiert in
Enforcement-Modi.
7. Nächste Schritte
Enforcement-Modi
Die Mechanismus-Karte hinter Observe, Shadow und Enforce.
Secure-Agents-Baseline
Was jedes Autonomie-Level setzt und wie man es zuerst simuliert.
Einen autonomen Agenten zähmen
Der nächste Schritt, sobald Sie durchgesetzt haben: Kosten-Caps,
Anomalieerkennung und Freigaben.
Agent-Firewall
Policies, Regeln, Verdikte, Shadow-Mode und das MCP-Gateway in Gänze.
