deny, sanitize, [EMAIL]. Diese Seite ist
die Nachschlagetabelle für diese Wörter: was jedes bedeutet, was es mit dem Aufruf
macht und wohin Sie für die vollständige Mechanik gehen. Halten Sie sie offen,
während Sie Regeln verfassen oder den Events-Feed triagieren.
Zwei Control-Planes erzeugen zwei Vokabulare. Die Firewall
steuert Tool-Aktionen und erzeugt ein Verdikt. Guardrails
screenen Prompt- und Antwort-Text und erzeugen eine Aktion plus, bei einer
Maske, einen typisierten Masking-Tag. Sie teilen sich nie ein Wort — ein
Guardrail sagt nie deny, eine Firewall sagt nie mask.
Dies ist ein Referenzindex, kein How-to. Für den Anwendungsfall hinter jeder
Kontrolle siehe Guardrails vs. Firewall;
für die HTTP-Bodys siehe Sicherheits-Fehlercodes.
1. Das Firewall-Verdikt-Glossar
Eine Firewall-Regel (oder dasdefault_verdict der Policy) löst jeden Tool-Call
zu genau einem dieser sechs Verdikte auf. Die Engine durchläuft die Regeln in
Prioritätsreihenfolge, erster Treffer gewinnt, und fällt auf den Default
zurück, wenn nichts matcht.
allow — den Aufruf durchlassen
allow — den Aufruf durchlassen
Der Aufruf fährt zum Tool fort. Trotzdem als Firewall-Event geloggt, sodass er
in Runs und im Events-Feed auftaucht. Das ist, was Sie für Tools wollen, denen
ein Agent ausdrücklich vertraut wird.
audit — erlauben, aber zur Überprüfung aufzeichnen
audit — erlauben, aber zur Überprüfung aufzeichnen
Identischer Traffic wie
allow, aber als etwas geflaggt, das Sie beobachten
wollten. Es ist das empfohlene default_verdict: alles beobachten, nichts
blockieren, bis Ihre Regeln getunt sind. Die balanced-Autonomie-Stufe
liefert das PII-Shield-Guardrail als flag-only (audit), sodass PII
aufgezeichnet wird, ohne den Aufruf zurückzuhalten.deny — den Aufruf blockieren
deny — den Aufruf blockieren
Der Aufruf erreicht das Tool nie. Auf der
inbound-Surface gibt dies
HTTP 400 firewall_blocked zurück; durch das MCP-Gateway kommt es als
Tool-Fehler (firewall deny: <reason>) zurück, sodass das Modell reagieren
kann, statt abzustürzen. Als skip-retry markiert. Kostet keine Modell-Tokens.sanitize — die Argumente redigieren, den bereinigten Aufruf weiterleiten
sanitize — die Argumente redigieren, den bereinigten Aufruf weiterleiten
Ersetzt gematchte Teilstrings (Secrets, PII) in den Tool-Call-Argumenten
durch ein
[redacted:<preset>]-Token und leitet dann den Aufruf mit den
bereinigten Argumenten weiter. Es redigiert nur Argumente — nie den Inhalt, den
ein Tool zurückgibt. Auf der inbound-Surface, wo es noch keine
Aufruf-Argumente gibt, eskaliert sanitize zu einem deny.pending_approval — für einen Menschen zurückhalten
pending_approval — für einen Menschen zurückhalten
Der Aufruf wird zur Überprüfung eingereiht und der Agent erhält eine
held-Antwort, die eine Approval-ID trägt (HTTP 400
firewall_approval_pending). Ein Prüfer löst sie in der Konsole oder über
einen HMAC-Webhook-Callback auf; der Agent pollt die ID und reicht einmal mit
einem einmal nutzbaren Approval-Header erneut ein. Siehe
Menschliche Freigabe.cap_cost — ablehnen, sobald der Run überausgibt
cap_cost — ablehnen, sobald der Run überausgibt
Verfasst als Regel mit einer Pro-Regel-Cent-Obergrenze. Es löst sich zu
allow auf, während der Agentenlauf im Budget ist, und zu deny, sobald die
kumulierten Ausgaben die Obergrenze überschreiten — sodass ein Event allow
oder deny zeigt, nicht das wörtliche cap_cost. Ein Schutzschalter für außer
Kontrolle geratene Schleifen.Default-Verdikt
default_verdict akzeptiert nur die drei nicht-interaktiven Verdikte:
| Wert | Bedeutung, wenn keine Regel matcht |
|---|---|
allow | Nicht abgedeckte Tool-Calls stillschweigend erlauben. |
audit | Erlauben, aber aufzeichnen — der Default. |
deny | Alles blockieren, was keine Regel ausdrücklich erlaubt (Default-Deny-Haltung). |
tight-Autonomie-Stufe setzt default_verdict: deny; balanced und der
ausgelieferte Default verwenden audit.
2. Guardrail-Aktionen
Eine Guardrail-Regel feuert eine von fünf Aktionen. Sie sind das Text-Plane- Äquivalent zu Verdikten — und eine Guardrail-Regel erzeugt nie ein Firewall-Verdikt.| Aktion | Was sie tut | Kontingent |
|---|---|---|
block | Den gesamten Request mit HTTP 400 guardrail_blocked ablehnen. | Keine — Input-Blocks feuern vor der Messung; Output-Blocks erstatten. |
mask | Jeden Treffer zu einem typisierten Tag redigieren (siehe §3) und den bereinigten Text weiterleiten. | Normal — der Aufruf läuft weiter. |
flag | Nur loggen. Zeichnet einen Treffer auf; ändert nichts am Traffic. | Normal. |
annotate | Nicht blockierend. Hängt eine menschenlesbare Notiz an den Request an (upstream als Sicherheitshinweis injiziert), ohne den Text zu maskieren oder zu blockieren. | Normal. |
spotlight | Nicht blockierend. Schließt den gematchten (nicht vertrauenswürdigen) Text in Delimiter ein und sagt dem Modell, die abgegrenzte Region als Daten, nie als Anweisungen zu behandeln — die Prompt-Injection-„Spotlighting”-Verteidigung. | Normal. |
pii-Regel kann verschiedene Aktionen auf verschiedene Entitäten
mit entity_actions anwenden — E-Mails und Telefonnummern maskieren, aber auf
credit_card und ssn blockieren, aus einer Regel. Keys müssen eine auf der
Regel aktivierte Entität sein; Werte müssen block / mask / flag / annotate
sein.
3. Das Masking-Tag-Glossar
Bei einermask-Aktion wird jede gematchte Entität inline durch einen
typisierten Tag ersetzt — [<GROSSBUCHSTABEN_ENTITÄTSNAME>] — sodass das Modell
(Input-Stage) oder der Aufrufer (Output-Stage) die Form der Daten ohne den Wert
sieht. Masking läuft auf beiden Stages, einschließlich gestreamter Antworten: Ein
token-bewusster Stream-Scanner maskiert Treffer, die Chunk-Grenzen überspannen,
bevor sie den Client erreichen.
| Entität | Tag |
|---|---|
email | [EMAIL] |
phone | [PHONE] |
credit_card | [CREDIT_CARD] |
ssn | [SSN] |
ip | [IP] |
iban | [IBAN] |
mac_address | [MAC_ADDRESS] |
jwt | [JWT] |
aws_access_key | [AWS_ACCESS_KEY] |
api_key_openai | [API_KEY_OPENAI] |
bitcoin_address | [BITCOIN_ADDRESS] |
| Entität | Tag | Region |
|---|---|---|
jp_mynumber | [JP_MYNUMBER] | Japan |
kr_rrn | [KR_RRN] | Südkorea |
cn_resident_id | [CN_RESIDENT_ID] | China |
Eigene Entitäten folgen derselben Konvention. Eine eigene Entität namens
employee_id maskiert zu [EMPLOYEE_ID], sofern Sie keinen expliziten
mask_with-Ersatz setzen. Bis zu 25 eigene Entitäten pro Regel, jede ein
RE2-Regex mit einer optionalen luhn-Prüfsumme. Siehe
PII-Erkennung.4. Ein durchgearbeitetes Beispiel
Ein einzelnerdb.query-Tool-Call, von oben nach unten gelesen, berührt beide
Vokabulare:
sanitize bereinigte die Tool-Argumente; das Guardrail-mask
bereinigte den Prompt-Text; der [EMAIL]-Tag ist, was das Modell anstelle der
Adresse sieht. Derselbe Request, drei verschiedene Ebenen, drei Wörter aus diesem
Glossar.
5. Haltungs-Wörter, die Sie neben Verdikten sehen
Diese sind keine Verdikte oder Aktionen, aber sie entscheiden, ob ein Verdikt überhaupt durchgesetzt wird — sodass sie in denselben Events- und Einstellungsansichten auftauchen.| Wort | Plane | Bedeutung |
|---|---|---|
| Shadow-Mode | Firewall | Pro-Policy-Flag. Stuft jedes durchsetzende Verdikt auf audit herab, stellt dem Grund [shadow] would … voran. |
| Observe-Mode | Firewall | Workspace-Einstellung. Wenn keine Policy aufgelöst wird, erlaubt den Aufruf, loggt ihn aber als Abdeckungslücke (Discovered tools). |
| Enforce | Firewall | Shadow aus + eine Policy angehängt: Verdikte treten in Kraft. |
| Fail-open | Guardrails | Default für fortgeschrittene Regeln (llm_judge, grounding, external) — ein Timeout wird beobachtet, der Request läuft weiter. Schalten Sie pro Regel auf fail-closed. |
| Log raw content | Guardrails | Standardmäßig aus. Wenn aus, zeichnet ein Match auf, dass eine Regel gefeuert hat, aber nicht den gematchten Teilstring. |
6. Wo jedes Wort definiert ist
| Surface | Vokabular | Home-Seite |
|---|---|---|
| Firewall-Policy | allow audit deny sanitize pending_approval cap_cost | Firewall |
| Firewall-Regel-Matching | tool_name_glob, args_match, egress, sequence | Firewall-Regeln |
| Guardrail-Regel | block mask flag annotate spotlight | Guardrails |
| Guardrail-PII | Entitätsnamen + Masking-Tags | Guardrails |
| MCP & Skills | Skill-Risikobänder, quarantine / block Modi | Firewall-MCP, Firewall-Skills |
| HTTP-Fehler-Bodys | guardrail_blocked, firewall_blocked, firewall_approval_pending | Fehlercodes |
7. Verwandte Lektüre
Warum wurde das blockiert?
Verfolgen Sie einen einzelnen abgelehnten Aufruf zurück zu der exakten Regel
und dem Verdikt, das ihn gestoppt hat.
Enforcement-Modes
Wie audit, shadow, observe und enforce zusammenhängen — und wie man sicher
ausrollt.
Guardrails vs. Firewall
Welche Plane welche Entscheidung besitzt und warum ein Request durch beide
laufen kann.
Gefährliche Tool-Calls
Die Bedrohung, gegen die die Verdikte
deny und sanitize existieren.