deny, sanitize, [EMAIL]. Ta strona to tabela
wyszukania tych słów: co każde oznacza, co robi z wywołaniem i gdzie iść po pełną
mechanikę. Trzymaj ją otwartą, gdy autorujesz reguły lub triażujesz strumień
zdarzeń.
Dwie płaszczyzny kontrolne produkują dwa słownictwa.
Firewall zarządza akcjami narzędzi i emituje
werdykt. Guardrails prześwietlają tekst promptu i
odpowiedzi i emitują akcję plus, na maskowaniu, typowany tag maskowania.
Nigdy nie dzielą słowa — guardrail nigdy nie mówi deny, firewall nigdy nie mówi
mask.
To indeks referencyjny, nie poradnik. Po przypadek użycia stojący za każdą
kontrolą zobacz Guardrails vs Firewall;
po ciała HTTP zobacz Kody błędów bezpieczeństwa.
1. Słownik werdyktów firewalla
Reguła firewalla (lubdefault_verdict polityki) rozwiązuje każde wywołanie
narzędzia do dokładnie jednego z tych sześciu werdyktów. Silnik przechodzi reguły
w kolejności priorytetów, wygrywa pierwsze dopasowanie, a jeśli nic nie pasuje,
wraca do domyślnego.
allow — przepuść wywołanie
allow — przepuść wywołanie
Wywołanie przechodzi do narzędzia. Wciąż zalogowane jako zdarzenie firewalla,
więc pojawia się w Runs i strumieniu zdarzeń. To, czego chcesz dla narzędzi,
do których agent jest jawnie zaufany.
audit — przepuść, ale zarejestruj do przeglądu
audit — przepuść, ale zarejestruj do przeglądu
Identyczny ruch jak
allow, ale oznaczony jako coś, co chciałeś obserwować.
To rekomendowany default_verdict: obserwuj wszystko, nie blokuj nic, dopóki
twoje reguły nie są wystrojone. Poziom autonomii balanced dostarcza guardrail
PII Shield jako tylko-flagujący (audit), więc PII jest rejestrowane bez
wstrzymywania wywołania.deny — zablokuj wywołanie
deny — zablokuj wywołanie
Wywołanie nigdy nie dociera do narzędzia. Na powierzchni
inbound zwraca to
HTTP 400 firewall_blocked; przez bramę MCP wraca jako błąd narzędzia
(firewall deny: <reason>), aby model mógł zareagować zamiast się wysypać.
Oznaczone skip-retry. Nie kosztuje tokenów modelu.sanitize — zredaguj argumenty, prześlij oczyszczone wywołanie
sanitize — zredaguj argumenty, prześlij oczyszczone wywołanie
Zastępuje dopasowane podłańcuchy (sekrety, PII) w argumentach wywołania
narzędzia tokenem
[redacted:<preset>], a potem przesyła wywołanie z
oczyszczonymi argumentami. Redaguje wyłącznie argumenty — nigdy treści, którą
narzędzie zwraca. Na powierzchni inbound, gdzie nie ma jeszcze argumentów
czasu wywołania, sanitize eskaluje do deny.pending_approval — wstrzymaj dla człowieka
pending_approval — wstrzymaj dla człowieka
Wywołanie jest zakolejkowane do przeglądu, a agent dostaje wstrzymaną
odpowiedź niosącą id zatwierdzenia (HTTP 400
firewall_approval_pending).
Recenzent rozstrzyga je w konsoli lub przez HMAC webhook callback; agent
odpytuje id i wysyła ponownie raz z jednorazowym nagłówkiem zatwierdzenia.
Zobacz Zatwierdzenie przez człowieka.cap_cost — odmów, gdy uruchomienie przekroczy budżet
cap_cost — odmów, gdy uruchomienie przekroczy budżet
Zautorowane jako reguła z pułapem w centach per reguła. Rozwiązuje się w
allow, dopóki uruchomienie agenta jest w budżecie, i w deny, gdy
zakumulowane wydatki przekroczą limit — więc zdarzenie pokazuje allow lub
deny, nie dosłowne słowo cap_cost. Bezpiecznik dla rozbieganych pętli.Domyślny werdykt
default_verdict akceptuje tylko trzy nieinteraktywne werdykty:
| Wartość | Znaczenie, gdy żadna reguła nie pasuje |
|---|---|
allow | Pozwól po cichu na niepokryte wywołania narzędzi. |
audit | Pozwól, ale zarejestruj — domyślne. |
deny | Zablokuj cokolwiek, czego żadna reguła jawnie nie dozwala (postawa default-deny). |
tight ustawia default_verdict: deny; balanced i
dostarczany domyślny używają audit.
2. Akcje guardraila
Reguła guardraila odpala jedną z pięciu akcji. To tekstowy odpowiednik werdyktów — a reguła guardraila nigdy nie produkuje werdyktu firewalla.| Akcja | Co robi | Kwota |
|---|---|---|
block | Odrzuć całe żądanie z HTTP 400 guardrail_blocked. | Brak — blokady wejścia odpalają przed metrowaniem; blokady wyjścia zwracają. |
mask | Zredaguj każde dopasowanie do typowanego tagu (zobacz §3) i prześlij oczyszczony tekst. | Normalna — wywołanie przebiega. |
flag | Tylko log. Rejestruje dopasowanie; nie zmienia niczego w ruchu. | Normalna. |
annotate | Nieblokująca. Dołącza czytelną dla człowieka notatkę do żądania (wstrzykniętą nadrzędnie jako notyfikacja bezpieczeństwa) bez maskowania lub blokowania tekstu. | Normalna. |
spotlight | Nieblokująca. Owija dopasowany (niezaufany) tekst w ograniczniki i mówi modelowi, by traktował ograniczony region jako dane, nigdy instrukcje — obrona „spotlighting” przed prompt injection. | Normalna. |
pii może stosować różne akcje do różnych encji z
entity_actions — maskuj e-maile i telefony, ale blokuj na credit_card i
ssn, z jednej reguły. Klucze muszą być encją włączoną na regule; wartości muszą
być block / mask / flag / annotate.
3. Słownik tagów maskowania
Na akcjimask każda dopasowana encja jest zastępowana w miejscu typowanym
tagiem — [<NAZWA_ENCJI_WIELKIMI_LITERAMI>] — aby model (etap wejścia) lub
wywołujący (etap wyjścia) widział kształt danych bez wartości. Maskowanie działa
na obu etapach, w tym strumieniowane odpowiedzi: świadomy tokenów skaner strumienia
maskuje dopasowania, które rozciągają się przez granice chunków, zanim dotrą do
klienta.
| Encja | Tag |
|---|---|
email | [EMAIL] |
phone | [PHONE] |
credit_card | [CREDIT_CARD] |
ssn | [SSN] |
ip | [IP] |
iban | [IBAN] |
mac_address | [MAC_ADDRESS] |
jwt | [JWT] |
aws_access_key | [AWS_ACCESS_KEY] |
api_key_openai | [API_KEY_OPENAI] |
bitcoin_address | [BITCOIN_ADDRESS] |
| Encja | Tag | Region |
|---|---|---|
jp_mynumber | [JP_MYNUMBER] | Japonia |
kr_rrn | [KR_RRN] | Korea Południowa |
cn_resident_id | [CN_RESIDENT_ID] | Chiny |
Encje własne podążają za tą samą konwencją. Encja własna nazwana
employee_id maskuje się do [EMPLOYEE_ID], chyba że ustawisz jawne zastąpienie
mask_with. Do 25 encji własnych per reguła, każda regex RE2 z opcjonalną sumą
kontrolną luhn. Zobacz Wykrywanie PII.4. Jeden przepracowany przykład
Pojedyncze wywołanie narzędziadb.query, czytane z góry na dół, dotyka obu
słownictw:
sanitize oczyścił argumenty narzędzia; guardrailowy mask oczyścił
tekst promptu; tag [EMAIL] to, co model widzi w miejsce adresu. To samo
żądanie, trzy różne warstwy, trzy słowa z tego słownika.
5. Słowa postawy, które zobaczysz obok werdyktów
To nie są werdykty ani akcje, ale decydują, czy werdykt jest w ogóle egzekwowany — więc pojawiają się w tych samych widokach zdarzeń i ustawień.| Słowo | Płaszczyzna | Znaczenie |
|---|---|---|
| Tryb cienia (shadow) | Firewall | Flaga per polityka. Degraduje każdy egzekwujący werdykt do audit, poprzedza powód przedrostkiem [shadow] would …. |
| Tryb obserwacji (observe) | Firewall | Ustawienie przestrzeni roboczej. Gdy żadna polityka się nie rozwiązuje, pozwala na wywołanie, ale loguje je jako lukę w pokryciu (Discovered tools). |
| Enforce | Firewall | Cień wyłączony + polityka dołączona: werdykty wchodzą w życie. |
| Fail-open | Guardrails | Domyślne dla reguł zaawansowanych (llm_judge, grounding, external) — timeout jest obserwowany, żądanie kontynuuje. Przełącz na fail-closed per reguła. |
| Log raw content | Guardrails | Domyślnie wyłączone. Gdy wyłączone, dopasowanie rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch. |
6. Gdzie każde słowo jest zdefiniowane
| Powierzchnia | Słownictwo | Strona główna |
|---|---|---|
| Polityka firewalla | allow audit deny sanitize pending_approval cap_cost | Firewall |
| Dopasowanie reguły firewalla | tool_name_glob, args_match, egress, sekwencja | Reguły Firewall |
| Reguła guardraila | block mask flag annotate spotlight | Guardrails |
| PII guardraila | nazwy encji + tagi maskowania | Guardrails |
| MCP i skille | pasma ryzyka skilla, tryby quarantine / block | Firewall MCP, Firewall skille |
| Ciała błędów HTTP | guardrail_blocked, firewall_blocked, firewall_approval_pending | Kody błędów |
7. Powiązane czytanie
Dlaczego to zostało zablokowane?
Prześledź pojedyncze odrzucone wywołanie z powrotem do dokładnej reguły i
werdyktu, które je zatrzymały.
Tryby egzekwowania
Jak audit, shadow, observe i enforce się odnoszą — i jak wdrażać bezpiecznie.
Guardrails vs Firewall
Która płaszczyzna posiada którą decyzję i dlaczego żądanie może przejść przez
obie.
Niebezpieczne wywołania narzędzi
Zagrożenie, dla zatrzymania którego istnieją werdykty
deny i sanitize.