Guardrail PII prześwietla tekst promptów i odpowiedzi. Aby zarządzać
akcjami, które agent podejmuje z danymi — narzędziami fetch, hostami
egress — zobacz
Eksfiltrację danych. Te dwie
płaszczyzny komponują się; większość zespołów uruchamia obie.
1. Jak dochodzi do ujawnienia
PII dociera do dostawcy nadrzędnego przez zwyczajny, dobrze intencjonowany ruch:- Użytkownik wkleja własne dane kontaktowe do czatu, a twoja aplikacja przekazuje całą wiadomość dosłownie.
- Pipeline RAG pobiera dokument zawierający rekordy klientów i upycha go do promptu jako kontekst.
- Agent odczytuje wiersz bazy danych i włącza surowe pola do argumentu narzędzia lub kolejnego promptu.
- Odpowiedź modelu powtarza lub wnioskuje PII, które twoja aplikacja następnie zapisuje do własnych logów.
2. Broń się przed wyciekiem PII przez LLM guardrailem PII
Guardrail to nazwana polityka treści w zakresie przestrzeni roboczej. Regułapii wewnątrz niego wykrywa wrażliwe encje i
stosuje jedną akcję do każdego dopasowania:
| Akcja | Efekt |
|---|---|
mask | Zastąp każde dopasowanie typowanym tagiem — jane@acme.com → [EMAIL] — i prześlij oczyszczony tekst. Model nigdy nie widzi oryginału. |
block | Odrzuć całe żądanie z HTTP 400 guardrail_blocked. Użyj, gdy PII nie może w ogóle dotrzeć do dostawcy. |
flag | Nie zmieniaj nic w ruchu; zarejestruj dopasowanie. Zmierz ekspozycję, zanim zaczniesz egzekwować. |
email, phone, credit_card, ssn, ip, iban, mac_address, jwt,
aws_access_key, api_key_openai, bitcoin_address, plus bramkowane sumą
kontrolną identyfikatory regionalne jp_mynumber, kr_rrn oraz
cn_resident_id.
Przy akcji mask każde dopasowanie renderuje się jako swój typowany tag —
[EMAIL], [SSN], [CREDIT_CARD] i tak dalej — więc struktura promptu
przetrwa, podczas gdy wartość znika.
3. Konkretny przykład — maskuj PII w żądaniu
Najszybszy start to preset PII Shield: pojedyncza regułapii, która
maskuje email, phone, ssn, credit_card oraz ip. Skonfiguruj go w
konsoli — bez zmian w kodzie, bez klucza na tym kroku.
Utwórz guardrail
W konsoli otwórz Guardrails i kliknij New guardrail. Wybierz
preset PII Shield z kategorii pii lub ręcznie napisz jedną regułę
pii z akcją mask nad powyższymi encjami. Zapisz. (Zapisy wymagają
roli Developer lub wyższej.)Udowodnij to w piaskownicy
Otwórz zakładkę Test, wklej „reply to jane@acme.com”, wybierz etap
input i uruchom. Piaskownica zwraca reply to [EMAIL] — lokalnie, bez
wywołania nadrzędnego i bez zużytej kwoty.Dołącz go do klucza
W API Keys edytuj klucz i wybierz guardrail z rozwijanej listy
Guardrail lub ustaw guardrail jako domyślny dla przestrzeni roboczej,
aby każdy niepowiązany klucz go dziedziczył. Powiązanie żyje na kluczu w
bramie.
4. Maskuj większość, blokuj najgorsze — przesłonięcia per encja
Pojedyncza reguła może stosować różne akcje do różnych encji przezentity_actions. Maskuj identyfikatory niskiego ryzyka, ale twardo blokuj
encje, których nigdy nie chcesz przesyłać — jedna reguła zamiast trzech
nakładających się:
guardrail_blocked. Zablokowane żądanie nie kosztuje kwoty — block na
etapie wejścia odpala przed pomiarem — i jest oznaczone jako skip-retry.
Każdy klucz entity_actions musi być encją zadeklarowaną na regule
(wbudowaną lub niestandardową); jego akcja jest walidowana wobec zestawu
akcji reguły.
5. Co działa dziś na strumieniu
Akcja i etap inaczej oddziałują ze strumieniowaniem — poznaj macierz, zanim na nim polegniesz:Mask lub block na etapie wejścia (dowolny tryb odpowiedzi)
Mask lub block na etapie wejścia (dowolny tryb odpowiedzi)
W pełni na żywo. Prompt jest prześwietlany przed wywołaniem
nadrzędnym, więc maskowanie i blokowanie działają identycznie niezależnie
od tego, czy odpowiedź się strumieniuje. To jest powierzchnia, którą PII
Shield egzekwuje dziś.
Block na etapie wyjścia
Block na etapie wyjścia
Egzekwowane zarówno na odpowiedziach strumieniowanych, jak i
niestrumieniowanych. Na strumieniu skaner przerywa strumień w locie i
emituje wiadomość zastępczą, zanim jakakolwiek zablokowana treść dotrze do
klienta; block na wyjściu zwraca wstępnie skonsumowaną kwotę.
Mask na etapie wyjścia
Mask na etapie wyjścia
Obecnie tylko niestrumieniowane. Na strumieniowanej odpowiedzi
oryginalny fragment przechodzi bez maskowania — przepisywanie strumienia
w paśmie to planowane ulepszenie. Dla maskowania odpowiedzi dziś używaj
żądań niestrumieniowanych lub polegaj na maskowaniu na etapie wejścia.
Udowodnij swoją dokładną kombinację etap/strumień najpierw w zakładce
Test.
6. Zobacz, co zostało wychwycone
Każda reguła, która odpala, rejestruje dopasowanie — jego typ, akcję, etap i łańcuch szczegółów — widoczne na strumieniu Matches przestrzeni roboczej (GET /api/guardrail/match, otwarte dla każdego członka). Stamtąd
możesz grupować, filtrować, eksportować do CSV i oznaczać fałszywe
pozytywy.
Surowe wartości domyślnie nie są logowane. Przełącznik guardraila Log
raw content jest wyłączony — postawa konserwatywna wobec prywatności —
więc strumień Matches rejestruje, że reguła PII odpaliła i którą encję, ale
nie dopasowany podłańcuch (sam adres e-mail). Włącz go per guardrail
tylko wtedy, gdy potrzebujesz wartości do triage; ustawienie jest
nieretroaktywne. Przechwytywanie PII we własnym śladzie audytu, aby
zdebugować wyciek PII, byłoby działaniem przeciwskutecznym.
7. Idź dalej
Dla pełnej kontroli rezydencji, retencji i prawa do usunięcia — włącznie z instalacją pakietu zgodności, który materializuje te guardrails dla GDPR, HIPAA lub PCI DSS — zacznij od stron referencyjnych poniżej.Referencja Guardrails
Każdy typ reguły, etap, akcja, encje niestandardowe, wersjonowanie i
eval harness — głęboka referencja stojąca za tą stroną.
Wyciek sekretów
Odpowiednik w kształcie poświadczeń — tokeny AWS, OpenAI, GitHub —
wychwytywane guardrailem Secrets Blocker.
Niebezpieczne wyjście
Prześwietlanie tego, co model odsyła, nie tylko tego, co otrzymuje.
Guardrails vs Firewall
Kiedy prześwietlać tekst, a kiedy zarządzać akcjami — i dlaczego zwykle
chcesz obu.
