Przejdź do głównej treści
Gdy czytasz zdarzenie firewalla lub dopasowanie guardraila, wiersz mówi ci, co brama zdecydowaładeny, sanitize, [EMAIL]. Ta strona to tabela wyszukania tych słów: co każde oznacza, co robi z wywołaniem i gdzie iść po pełną mechanikę. Trzymaj ją otwartą, gdy autorujesz reguły lub triażujesz strumień zdarzeń. Dwie płaszczyzny kontrolne produkują dwa słownictwa. Firewall zarządza akcjami narzędzi i emituje werdykt. Guardrails prześwietlają tekst promptu i odpowiedzi i emitują akcję plus, na maskowaniu, typowany tag maskowania. Nigdy nie dzielą słowa — guardrail nigdy nie mówi deny, firewall nigdy nie mówi mask.
To indeks referencyjny, nie poradnik. Po przypadek użycia stojący za każdą kontrolą zobacz Guardrails vs Firewall; po ciała HTTP zobacz Kody błędów bezpieczeństwa.

1. Słownik werdyktów firewalla

Reguła firewalla (lub default_verdict polityki) rozwiązuje każde wywołanie narzędzia do dokładnie jednego z tych sześciu werdyktów. Silnik przechodzi reguły w kolejności priorytetów, wygrywa pierwsze dopasowanie, a jeśli nic nie pasuje, wraca do domyślnego.
Wywołanie przechodzi do narzędzia. Wciąż zalogowane jako zdarzenie firewalla, więc pojawia się w Runs i strumieniu zdarzeń. To, czego chcesz dla narzędzi, do których agent jest jawnie zaufany.
Identyczny ruch jak allow, ale oznaczony jako coś, co chciałeś obserwować. To rekomendowany default_verdict: obserwuj wszystko, nie blokuj nic, dopóki twoje reguły nie są wystrojone. Poziom autonomii balanced dostarcza guardrail PII Shield jako tylko-flagujący (audit), więc PII jest rejestrowane bez wstrzymywania wywołania.
Wywołanie nigdy nie dociera do narzędzia. Na powierzchni inbound zwraca to HTTP 400 firewall_blocked; przez bramę MCP wraca jako błąd narzędzia (firewall deny: <reason>), aby model mógł zareagować zamiast się wysypać. Oznaczone skip-retry. Nie kosztuje tokenów modelu.
Zastępuje dopasowane podłańcuchy (sekrety, PII) w argumentach wywołania narzędzia tokenem [redacted:<preset>], a potem przesyła wywołanie z oczyszczonymi argumentami. Redaguje wyłącznie argumenty — nigdy treści, którą narzędzie zwraca. Na powierzchni inbound, gdzie nie ma jeszcze argumentów czasu wywołania, sanitize eskaluje do deny.
Wywołanie jest zakolejkowane do przeglądu, a agent dostaje wstrzymaną odpowiedź niosącą id zatwierdzenia (HTTP 400 firewall_approval_pending). Recenzent rozstrzyga je w konsoli lub przez HMAC webhook callback; agent odpytuje id i wysyła ponownie raz z jednorazowym nagłówkiem zatwierdzenia. Zobacz Zatwierdzenie przez człowieka.
Zautorowane jako reguła z pułapem w centach per reguła. Rozwiązuje się w allow, dopóki uruchomienie agenta jest w budżecie, i w deny, gdy zakumulowane wydatki przekroczą limit — więc zdarzenie pokazuje allow lub deny, nie dosłowne słowo cap_cost. Bezpiecznik dla rozbieganych pętli.
W trybie cienia deny / sanitize / pending_approval są wszystkie degradowane do audit, a powód jest poprzedzony przedrostkiem [shadow] would …. Zdarzenie rejestruje werdykt, który by odpalił, ale ruch jest niezmieniony — to cały sens bezpiecznego wdrożenia.

Domyślny werdykt

default_verdict akceptuje tylko trzy nieinteraktywne werdykty:
WartośćZnaczenie, gdy żadna reguła nie pasuje
allowPozwól po cichu na niepokryte wywołania narzędzi.
auditPozwól, ale zarejestruj — domyślne.
denyZablokuj cokolwiek, czego żadna reguła jawnie nie dozwala (postawa default-deny).
Poziom autonomii tight ustawia default_verdict: deny; balanced i dostarczany domyślny używają audit.

2. Akcje guardraila

Reguła guardraila odpala jedną z pięciu akcji. To tekstowy odpowiednik werdyktów — a reguła guardraila nigdy nie produkuje werdyktu firewalla.
AkcjaCo robiKwota
blockOdrzuć całe żądanie z HTTP 400 guardrail_blocked.Brak — blokady wejścia odpalają przed metrowaniem; blokady wyjścia zwracają.
maskZredaguj każde dopasowanie do typowanego tagu (zobacz §3) i prześlij oczyszczony tekst.Normalna — wywołanie przebiega.
flagTylko log. Rejestruje dopasowanie; nie zmienia niczego w ruchu.Normalna.
annotateNieblokująca. Dołącza czytelną dla człowieka notatkę do żądania (wstrzykniętą nadrzędnie jako notyfikacja bezpieczeństwa) bez maskowania lub blokowania tekstu.Normalna.
spotlightNieblokująca. Owija dopasowany (niezaufany) tekst w ograniczniki i mówi modelowi, by traktował ograniczony region jako dane, nigdy instrukcje — obrona „spotlighting” przed prompt injection.Normalna.
Zablokowane żądanie guardraila jest oznaczone skip-retry — ponowne uruchomienie tego samego promptu wobec innego kanału po prostu znów by zablokowało.
Użyj flag, by zmierzyć nową regułę wobec prawdziwego ruchu, zanim przełączysz ją na block lub mask. Strumień Matches pokazuje, co by zostało złapane, z zerowym wpływem na ruch — guardrailowy odpowiednik trybu cienia firewalla.
Pojedyncza reguła pii może stosować różne akcje do różnych encji z entity_actions — maskuj e-maile i telefony, ale blokuj na credit_card i ssn, z jednej reguły. Klucze muszą być encją włączoną na regule; wartości muszą być block / mask / flag / annotate.

3. Słownik tagów maskowania

Na akcji mask każda dopasowana encja jest zastępowana w miejscu typowanym tagiem — [<NAZWA_ENCJI_WIELKIMI_LITERAMI>] — aby model (etap wejścia) lub wywołujący (etap wyjścia) widział kształt danych bez wartości. Maskowanie działa na obu etapach, w tym strumieniowane odpowiedzi: świadomy tokenów skaner strumienia maskuje dopasowania, które rozciągają się przez granice chunków, zanim dotrą do klienta.
EncjaTag
email[EMAIL]
phone[PHONE]
credit_card[CREDIT_CARD]
ssn[SSN]
ip[IP]
iban[IBAN]
mac_address[MAC_ADDRESS]
jwt[JWT]
aws_access_key[AWS_ACCESS_KEY]
api_key_openai[API_KEY_OPENAI]
bitcoin_address[BITCOIN_ADDRESS]
Trzy regionalne identyfikatory dostarczane są na bazie podstawowego zestawu:
EncjaTagRegion
jp_mynumber[JP_MYNUMBER]Japonia
kr_rrn[KR_RRN]Korea Południowa
cn_resident_id[CN_RESIDENT_ID]Chiny
Encje własne podążają za tą samą konwencją. Encja własna nazwana employee_id maskuje się do [EMPLOYEE_ID], chyba że ustawisz jawne zastąpienie mask_with. Do 25 encji własnych per reguła, każda regex RE2 z opcjonalną sumą kontrolną luhn. Zobacz Wykrywanie PII.

4. Jeden przepracowany przykład

Pojedyncze wywołanie narzędzia db.query, czytane z góry na dół, dotyka obu słownictw:
firewall verdict : sanitize        # secret stripped from the SQL argument
guardrail action : mask            # an email in the prompt redacted
masking tag      : [EMAIL]         # what the model actually receives
Firewallowy sanitize oczyścił argumenty narzędzia; guardrailowy mask oczyścił tekst promptu; tag [EMAIL] to, co model widzi w miejsce adresu. To samo żądanie, trzy różne warstwy, trzy słowa z tego słownika.

5. Słowa postawy, które zobaczysz obok werdyktów

To nie są werdykty ani akcje, ale decydują, czy werdykt jest w ogóle egzekwowany — więc pojawiają się w tych samych widokach zdarzeń i ustawień.
SłowoPłaszczyznaZnaczenie
Tryb cienia (shadow)FirewallFlaga per polityka. Degraduje każdy egzekwujący werdykt do audit, poprzedza powód przedrostkiem [shadow] would ….
Tryb obserwacji (observe)FirewallUstawienie przestrzeni roboczej. Gdy żadna polityka się nie rozwiązuje, pozwala na wywołanie, ale loguje je jako lukę w pokryciu (Discovered tools).
EnforceFirewallCień wyłączony + polityka dołączona: werdykty wchodzą w życie.
Fail-openGuardrailsDomyślne dla reguł zaawansowanych (llm_judge, grounding, external) — timeout jest obserwowany, żądanie kontynuuje. Przełącz na fail-closed per reguła.
Log raw contentGuardrailsDomyślnie wyłączone. Gdy wyłączone, dopasowanie rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch.
Po rozróżnienie deny-vs-audit-vs-shadow w głąb zobacz Tryby egzekwowania.

6. Gdzie każde słowo jest zdefiniowane

PowierzchniaSłownictwoStrona główna
Polityka firewallaallow audit deny sanitize pending_approval cap_costFirewall
Dopasowanie reguły firewallatool_name_glob, args_match, egress, sekwencjaReguły Firewall
Reguła guardrailablock mask flag annotate spotlightGuardrails
PII guardrailanazwy encji + tagi maskowaniaGuardrails
MCP i skillepasma ryzyka skilla, tryby quarantine / blockFirewall MCP, Firewall skille
Ciała błędów HTTPguardrail_blocked, firewall_blocked, firewall_approval_pendingKody błędów
Każdy termin tutaj pojawia się też w szerszym Słowniku pojęć, który dodaje terminy tożsamości, zakresu i zagrożeń. Ta strona to wąski, skupiony na decyzjach wycinek — wyłącznie werdykty, akcje i tagi maskowania.

7. Powiązane czytanie

Dlaczego to zostało zablokowane?

Prześledź pojedyncze odrzucone wywołanie z powrotem do dokładnej reguły i werdyktu, które je zatrzymały.

Tryby egzekwowania

Jak audit, shadow, observe i enforce się odnoszą — i jak wdrażać bezpiecznie.

Guardrails vs Firewall

Która płaszczyzna posiada którą decyzję i dlaczego żądanie może przejść przez obie.

Niebezpieczne wywołania narzędzi

Zagrożenie, dla zatrzymania którego istnieją werdykty deny i sanitize.