inbound-Surface hat kein Ziel zu prüfen;
eine Argument-Klausel auf inbound hat noch keine Aufruf-Argumente.
Diese Seite ist der fokussierte Leitfaden zu den vier Agent-Firewall-Stages:
was jede Surface beobachtet, wann eine Regel sie anvisieren sollte und der eine
konkrete Weg, wie dieselbe Absicht an verschiedenen Stages ausgedrückt wird.
Für das vollständige Regel-Vokabular siehe Firewall-Regeln;
für das Policy-Modell darum herum Firewall.
1. Die vier Stages auf einen Blick
Jede Auswertung wird mit genau einer Stage gestempelt. Eine Regel ohne Stage ("") trifft auf alle zu; eine auf eine Stage gepinnte Regel feuert nur
dort.
| Stage | Was die Surface sieht |
|---|---|
inbound | Tools, die der Agent auf dem Request anbietet |
response | tool_calls, die das Modell in seiner Antwort ausgibt |
mcp | Ein tools/call, der durch das MCP-Gateway dispatcht wird |
egress | Ein ausgehender Host / IP / CIDR, den ein Tool erreicht |
stage-Eigenschaft, wenn Sie über die
API verfassen.
Die Stage steuert, welche Daten im Scope sind, nicht, wie streng das Verdikt
ist. Ein
deny ist ein deny auf jeder Stage; was sich ändert, ist, ob die
Regel die Argumente, den Tool-Namen oder das Ziel hat, auf das sie matchen muss.2. inbound — die Tools, die ein Agent anbietet
Die früheste Surface. Bevor das Modell je läuft, sendet Ihr Agent eine Liste
von Tool-Definitionen, deren Aufruf er dem Modell zu erlauben bereit ist. Die
inbound-Stage sieht diesen angebotenen Toolset und kann ein gefährliches Tool
blockieren, bevor das Modell es überhaupt wählen kann.
An dieser Stage gibt es keine Aufruf-Argumente — das Modell hat noch nicht
entschieden, wie es irgendetwas aufruft — also matchen inbound-Regeln auf den
Tool-Namen (und optional seinen besitzenden Skill), nicht auf args_match_json.
Ein abgelehnter Aufruf hier gibt HTTP 400 mit dem Code firewall_blocked
zurück, benannt nach Tool und Grund und als skip-retry markiert.
3. response — die Tool-Calls, die das Modell ausgibt
Sobald das Modell antwortet, kann es einen oder mehrere tool_calls ausgeben —
konkrete Aufrufe mit realen Argumenten. Die response-Stage sieht diese, also
gehören argumentebene Regeln hierhin: nicht „blockiere shell.exec”, sondern
„blockiere shell.exec nur, wenn der Befehl rm -rf ist”.
sanitize
hier — es redigiert gematchte Teilstrings aus den Argumenten des Aufrufs und
leitet den bereinigten Aufruf weiter. (Sanitize redigiert nur die
Tool-Call-Argumente; es berührt nie den Inhalt, den ein Tool zurückgibt.)
4. mcp — durch das Gateway dispatchte Aufrufe
Wenn ein Agent ein Tool über OrcaRouters MCP-Gateway
erreicht, wird jeder tools/call auf der mcp-Stage ausgewertet, bevor er an
den registrierten Server dispatcht wird. Dies ist die Surface, die
Model-Context-Protocol-Traffic steuert — dasselbe Glob- / Argument- /
Verdikt-Vokabular wie response, angewandt auf MCP-Dispatch.
Ein Block hier taucht als Tool-Fehler (firewall deny: <reason>) statt als
Transportfehler auf, sodass das Modell die Ablehnung sieht und reagieren kann —
ein anderes Tool wählen, den Nutzer fragen oder anhalten.
5. egress — das ausgehende Ziel, das ein Tool erreicht
Die letzte Surface. Wenn ein Tool ein ausgehendes Netzwerkziel meldet, matcht
die egress-Stage darauf — die SSRF- und Datenexfiltrations-Surface.
Egress-Regeln matchen nicht auf ein Tool-Namen-Muster allein; sie matchen auf
eine Host- / IP- / CIDR-Liste:
169.254.169.254) und RFC-1918-Bereiche sind die kanonischen Dinge, die man
ablehnt. Siehe Firewall-Regeln §6
für die Allow-/Deny-Polarität.
Kein Preset liefert CIDR-Regeln. Die SSRF-Haltung der
tight-Autonomie-Stufe
lehnt abruf-förmige Tool-Namen ab (z. B. http_fetch, web_search,
fetch_url); ein zielbasiertes Egress-Deny ist etwas, das Sie für die Hosts
und Bereiche verfassen, die Ihre Agenten niemals erreichen dürfen.6. Die richtige Stage wählen
Dasselbe Sicherheitsziel hat oft eine beste Stage. Bringen Sie die Absicht mit der Surface in Einklang, die tatsächlich die Daten trägt, die Sie brauchen:Verhindern, dass ein Tool je angeboten wird → inbound
Verhindern, dass ein Tool je angeboten wird → inbound
Wenn das Modell ein Tool niemals auch nur sehen soll, lehnen Sie es auf
inbound ab. Der Block landet vor dem Modellaufruf, kostet also keine
Modell-Tokens.Ein Tool erlauben, aber seine Argumente einschränken → response (oder mcp)
Ein Tool erlauben, aber seine Argumente einschränken → response (oder mcp)
Argument-Klauseln brauchen die vom Modell gewählten Argumente, die nur auf
response und mcp existieren. Lehnen Sie bei einem gefährlichen Argument
ab, oder sanitize, um einen Secret- oder PII-Wert zu entfernen, den der
Agent in ein Argument gesetzt hat.Model-Context-Protocol-Traffic steuern → mcp
Model-Context-Protocol-Traffic steuern → mcp
Durch das MCP-Gateway geroutete Aufrufe werden auf
mcp vor dem Dispatch
ausgewertet — der Engpass für die Tools jedes registrierten Servers.Blockieren, wohin ein Agent sich verbinden kann → egress
Blockieren, wohin ein Agent sich verbinden kann → egress
Zielbasierte Regeln — die Cloud-Metadata-IP blockieren, ein CIDR ablehnen,
Ihre genehmigten Hosts allow-listen — ergeben nur auf
egress Sinn.Auf jede Surface anwenden → die Stage leer lassen
Auf jede Surface anwenden → die Stage leer lassen
Eine Regel ohne Stage läuft auf allen vieren. Verwenden Sie sie für eine
pauschale
default_verdict-artige Regel oder ein Tool, das Sie überall, wo
es auftaucht, ablehnen.7. Stages und Shadow-Mode
Dasshadow_mode-Flag einer Policy ist unabhängig von der Stage. Schalten Sie
es ein, und jedes durchsetzende Verdikt — auf jeder Stage — wird auf audit
herabgestuft und dem Grund wird [shadow] would … vorangestellt, sodass Sie
bestätigen können, dass eine Regel auf der richtigen Surface feuert, bevor sie
Live-Traffic verändert. Siehe Shadow-Mode
und Enforcement-Modes.
8. Wo Stages ins größere Bild passen
Die vier Stages sind das Wo der Durchsetzung; der Rest des Modells ist das Was und Wer.Verdikte
Was jede Stage tun kann, sobald sie matcht — erlauben, auditieren,
ablehnen, bereinigen, zur Freigabe zurückhalten, Kosten begrenzen.
Tool-Allow-Listing
Verwenden Sie
inbound, um den Toolset einzuschränken, den ein Agent
anbietet.Argumente validieren
Verfassen Sie
response- / mcp-Argument-Klauseln, die ein Tool danach
gaten, wie es aufgerufen wird.Egress-Steuerung
Blockieren Sie ausgehende Ziele auf der
egress-Surface — die
Exfiltrationsgrenze.