Słownik werdyktów, akcji i maskowania

Gdy czytasz zdarzenie firewalla lub dopasowanie guardraila, wiersz mówi ci, co brama zdecydowała — deny, sanitize, [EMAIL]. Ta strona to tabela wyszukania tych słów: co każde oznacza, co robi z wywołaniem i gdzie iść po pełną mechanikę. Trzymaj ją otwartą, gdy autorujesz reguły lub triażujesz strumień zdarzeń. Dwie płaszczyzny kontrolne produkują dwa słownictwa. Firewall zarządza akcjami narzędzi i emituje werdykt. Guardrails prześwietlają tekst promptu i odpowiedzi i emitują akcję plus, na maskowaniu, typowany tag maskowania. Nigdy nie dzielą słowa — guardrail nigdy nie mówi deny, firewall nigdy nie mówi mask.

To indeks referencyjny, nie poradnik. Po przypadek użycia stojący za każdą kontrolą zobacz Guardrails vs Firewall; po ciała HTTP zobacz Kody błędów bezpieczeństwa.

1. Słownik werdyktów firewalla

Reguła firewalla (lub default_verdict polityki) rozwiązuje każde wywołanie narzędzia do dokładnie jednego z tych sześciu werdyktów. Silnik przechodzi reguły w kolejności priorytetów, wygrywa pierwsze dopasowanie, a jeśli nic nie pasuje, wraca do domyślnego.

allow — przepuść wywołanie

Wywołanie przechodzi do narzędzia. Wciąż zalogowane jako zdarzenie firewalla, więc pojawia się w Runs i strumieniu zdarzeń. To, czego chcesz dla narzędzi, do których agent jest jawnie zaufany.

audit — przepuść, ale zarejestruj do przeglądu

Identyczny ruch jak allow, ale oznaczony jako coś, co chciałeś obserwować. To rekomendowany default_verdict: obserwuj wszystko, nie blokuj nic, dopóki twoje reguły nie są wystrojone. Poziom autonomii balanced dostarcza guardrail PII Shield jako tylko-flagujący (audit), więc PII jest rejestrowane bez wstrzymywania wywołania.

deny — zablokuj wywołanie

Wywołanie nigdy nie dociera do narzędzia. Na powierzchni inbound zwraca to HTTP 400 firewall_blocked; przez bramę MCP wraca jako błąd narzędzia (firewall deny: <reason>), aby model mógł zareagować zamiast się wysypać. Oznaczone skip-retry. Nie kosztuje tokenów modelu.

sanitize — zredaguj argumenty, prześlij oczyszczone wywołanie

Zastępuje dopasowane podłańcuchy (sekrety, PII) w argumentach wywołania narzędzia tokenem [redacted:<preset>], a potem przesyła wywołanie z oczyszczonymi argumentami. Redaguje wyłącznie argumenty — nigdy treści, którą narzędzie zwraca. Na powierzchni inbound, gdzie nie ma jeszcze argumentów czasu wywołania, sanitize eskaluje do deny.

pending_approval — wstrzymaj dla człowieka

Wywołanie jest zakolejkowane do przeglądu, a agent dostaje wstrzymaną odpowiedź niosącą id zatwierdzenia (HTTP 400 firewall_approval_pending). Recenzent rozstrzyga je w konsoli lub przez HMAC webhook callback; agent odpytuje id i wysyła ponownie raz z jednorazowym nagłówkiem zatwierdzenia. Zobacz Zatwierdzenie przez człowieka.

cap_cost — odmów, gdy uruchomienie przekroczy budżet

Zautorowane jako reguła z pułapem w centach per reguła. Rozwiązuje się w allow, dopóki uruchomienie agenta jest w budżecie, i w deny, gdy zakumulowane wydatki przekroczą limit — więc zdarzenie pokazuje allow lub deny, nie dosłowne słowo cap_cost. Bezpiecznik dla rozbieganych pętli.

W trybie cienia deny / sanitize / pending_approval są wszystkie degradowane do audit, a powód jest poprzedzony przedrostkiem [shadow] would …. Zdarzenie rejestruje werdykt, który by odpalił, ale ruch jest niezmieniony — to cały sens bezpiecznego wdrożenia.

Domyślny werdykt

default_verdict akceptuje tylko trzy nieinteraktywne werdykty:

Wartość	Znaczenie, gdy żadna reguła nie pasuje
`allow`	Pozwól po cichu na niepokryte wywołania narzędzi.
`audit`	Pozwól, ale zarejestruj — domyślne.
`deny`	Zablokuj cokolwiek, czego żadna reguła jawnie nie dozwala (postawa default-deny).

Poziom autonomii tight ustawia default_verdict: deny; balanced i dostarczany domyślny używają audit.

2. Akcje guardraila

Reguła guardraila odpala jedną z pięciu akcji. To tekstowy odpowiednik werdyktów — a reguła guardraila nigdy nie produkuje werdyktu firewalla.

Akcja	Co robi	Kwota
`block`	Odrzuć całe żądanie z HTTP 400 `guardrail_blocked`.	Brak — blokady wejścia odpalają przed metrowaniem; blokady wyjścia zwracają.
`mask`	Zredaguj każde dopasowanie do typowanego tagu (zobacz §3) i prześlij oczyszczony tekst.	Normalna — wywołanie przebiega.
`flag`	Tylko log. Rejestruje dopasowanie; nie zmienia niczego w ruchu.	Normalna.
`annotate`	Nieblokująca. Dołącza czytelną dla człowieka notatkę do żądania (wstrzykniętą nadrzędnie jako notyfikacja bezpieczeństwa) bez maskowania lub blokowania tekstu.	Normalna.
`spotlight`	Nieblokująca. Owija dopasowany (niezaufany) tekst w ograniczniki i mówi modelowi, by traktował ograniczony region jako dane, nigdy instrukcje — obrona „spotlighting” przed prompt injection.	Normalna.

Zablokowane żądanie guardraila jest oznaczone skip-retry — ponowne uruchomienie tego samego promptu wobec innego kanału po prostu znów by zablokowało.

Użyj flag, by zmierzyć nową regułę wobec prawdziwego ruchu, zanim przełączysz ją na block lub mask. Strumień Matches pokazuje, co by zostało złapane, z zerowym wpływem na ruch — guardrailowy odpowiednik trybu cienia firewalla.

Pojedyncza reguła pii może stosować różne akcje do różnych encji z entity_actions — maskuj e-maile i telefony, ale blokuj na credit_card i ssn, z jednej reguły. Klucze muszą być encją włączoną na regule; wartości muszą być block / mask / flag / annotate.

3. Słownik tagów maskowania

Na akcji mask każda dopasowana encja jest zastępowana w miejscu typowanym tagiem — [<NAZWA_ENCJI_WIELKIMI_LITERAMI>] — aby model (etap wejścia) lub wywołujący (etap wyjścia) widział kształt danych bez wartości. Maskowanie działa na obu etapach, w tym strumieniowane odpowiedzi: świadomy tokenów skaner strumienia maskuje dopasowania, które rozciągają się przez granice chunków, zanim dotrą do klienta.

Encja	Tag
`email`	`[EMAIL]`
`phone`	`[PHONE]`
`credit_card`	`[CREDIT_CARD]`
`ssn`	`[SSN]`
`ip`	`[IP]`
`iban`	`[IBAN]`
`mac_address`	`[MAC_ADDRESS]`
`jwt`	`[JWT]`
`aws_access_key`	`[AWS_ACCESS_KEY]`
`api_key_openai`	`[API_KEY_OPENAI]`
`bitcoin_address`	`[BITCOIN_ADDRESS]`

Trzy regionalne identyfikatory dostarczane są na bazie podstawowego zestawu:

Encja	Tag	Region
`jp_mynumber`	`[JP_MYNUMBER]`	Japonia
`kr_rrn`	`[KR_RRN]`	Korea Południowa
`cn_resident_id`	`[CN_RESIDENT_ID]`	Chiny

Encje własne podążają za tą samą konwencją. Encja własna nazwana employee_id maskuje się do [EMPLOYEE_ID], chyba że ustawisz jawne zastąpienie mask_with. Do 25 encji własnych per reguła, każda regex RE2 z opcjonalną sumą kontrolną luhn. Zobacz Wykrywanie PII.

4. Jeden przepracowany przykład

Pojedyncze wywołanie narzędzia db.query, czytane z góry na dół, dotyka obu słownictw:

firewall verdict : sanitize        # secret stripped from the SQL argument
guardrail action : mask            # an email in the prompt redacted
masking tag      : [EMAIL]         # what the model actually receives

Firewallowy sanitize oczyścił argumenty narzędzia; guardrailowy mask oczyścił tekst promptu; tag [EMAIL] to, co model widzi w miejsce adresu. To samo żądanie, trzy różne warstwy, trzy słowa z tego słownika.

5. Słowa postawy, które zobaczysz obok werdyktów

To nie są werdykty ani akcje, ale decydują, czy werdykt jest w ogóle egzekwowany — więc pojawiają się w tych samych widokach zdarzeń i ustawień.

Słowo	Płaszczyzna	Znaczenie
Tryb cienia (shadow)	Firewall	Flaga per polityka. Degraduje każdy egzekwujący werdykt do `audit`, poprzedza powód przedrostkiem `[shadow] would …`.
Tryb obserwacji (observe)	Firewall	Ustawienie przestrzeni roboczej. Gdy żadna polityka się nie rozwiązuje, pozwala na wywołanie, ale loguje je jako lukę w pokryciu (Discovered tools).
Enforce	Firewall	Cień wyłączony + polityka dołączona: werdykty wchodzą w życie.
Fail-open	Guardrails	Domyślne dla reguł zaawansowanych (`llm_judge`, `grounding`, `external`) — timeout jest obserwowany, żądanie kontynuuje. Przełącz na fail-closed per reguła.
Log raw content	Guardrails	Domyślnie wyłączone. Gdy wyłączone, dopasowanie rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch.

Po rozróżnienie deny-vs-audit-vs-shadow w głąb zobacz Tryby egzekwowania.

6. Gdzie każde słowo jest zdefiniowane

Powierzchnia	Słownictwo	Strona główna
Polityka firewalla	`allow` `audit` `deny` `sanitize` `pending_approval` `cap_cost`	Firewall
Dopasowanie reguły firewalla	`tool_name_glob`, `args_match`, egress, sekwencja	Reguły Firewall
Reguła guardraila	`block` `mask` `flag` `annotate` `spotlight`	Guardrails
PII guardraila	nazwy encji + tagi maskowania	Guardrails
MCP i skille	pasma ryzyka skilla, tryby `quarantine` / `block`	Firewall MCP, Firewall skille
Ciała błędów HTTP	`guardrail_blocked`, `firewall_blocked`, `firewall_approval_pending`	Kody błędów

Każdy termin tutaj pojawia się też w szerszym Słowniku pojęć, który dodaje terminy tożsamości, zakresu i zagrożeń. Ta strona to wąski, skupiony na decyzjach wycinek — wyłącznie werdykty, akcje i tagi maskowania.

7. Powiązane czytanie

Dlaczego to zostało zablokowane?

Prześledź pojedyncze odrzucone wywołanie z powrotem do dokładnej reguły i werdyktu, które je zatrzymały.

Tryby egzekwowania

Jak audit, shadow, observe i enforce się odnoszą — i jak wdrażać bezpiecznie.

Guardrails vs Firewall

Która płaszczyzna posiada którą decyzję i dlaczego żądanie może przejść przez obie.

Niebezpieczne wywołania narzędzi

Zagrożenie, dla zatrzymania którego istnieją werdykty deny i sanitize.

​1. Słownik werdyktów firewalla

​Domyślny werdykt

​2. Akcje guardraila

​3. Słownik tagów maskowania

​4. Jeden przepracowany przykład

​5. Słowa postawy, które zobaczysz obok werdyktów

​6. Gdzie każde słowo jest zdefiniowane

​7. Powiązane czytanie

Dlaczego to zostało zablokowane?

Tryby egzekwowania

Guardrails vs Firewall

Niebezpieczne wywołania narzędzi

1. Słownik werdyktów firewalla

Domyślny werdykt

2. Akcje guardraila

3. Słownik tagów maskowania

4. Jeden przepracowany przykład

5. Słowa postawy, które zobaczysz obok werdyktów

6. Gdzie każde słowo jest zdefiniowane

7. Powiązane czytanie