1. Dlaczego prześwietlać niebezpieczne wyjście AI na etapie wyjścia
Prześwietlanie wejścia wychwytuje zły prompt. Nie może wychwycić złej odpowiedzi: modelu zwabionego poza politykę, fine-tune’a ze słabszymi wbudowanymi guardrailami lub całkowicie rozsądnego promptu, który wyprodukował nierozsądne dokończenie. Etap wyjścia to miejsce, gdzie stwierdzasz „niezależnie od powodu, ten tekst nie opuszcza bramy”. Reguła bramy odpala deterministycznie i stosuje się jednakowo na każdym modelu za twoim kluczem. A każda reguła, która odpala, ląduje w strumieniu Matches przestrzeni roboczej — typ reguły, akcja, etap — więc masz ślad audytu tego, co zostało wychwycone, a co przepuszczone.Obrona żyje w bramie, nie w twojej aplikacji. Edytuj guardrail, a zmiana
wchodzi w życie przy następnym wywołaniu dla każdego powiązanego z nim klucza
— bez ponownego wdrożenia, bez zmiany SDK. Twoja aplikacja dalej woła
/v1/chat/completions dokładnie jak wcześniej.2. Dwa sposoby, by je wychwycić
Sparuj deterministyczną listę odmów z semantycznym sędzią dla obrony w głąb.Dosłownie — keyword / regex (zerowe opóźnienie)
Dosłownie — keyword / regex (zerowe opóźnienie)
Reguła
keyword to dopasowanie podłańcucha bez rozróżniania wielkości
liter; reguła regex to wzorzec RE2 (czas liniowy, bez wstecznych
referencji). Oba działają na gorącej ścieżce bez wywołania sieciowego —
idealne dla znanej listy zakazanych słów, listy odmów konkurentów lub
wzorca strukturalnego (wyciekły token szablonu czatu, definitywna fraza
„przysługuje ci odszkodowanie”).Semantycznie — llm_judge (wychwytuje to, czego żaden regex nie może)
Semantycznie — llm_judge (wychwytuje to, czego żaden regex nie może)
Reguła
llm_judge ewaluuje odpowiedź wobec rubryki, którą piszesz,
używając modelu w twojej przestrzeni roboczej — toksyczność, ton niezgodny
z marką, porady niezgodne z polityką, których żadna dosłowna lista nie
obejmuje. Niesie judge_timeout_ms, jest domyślnie fail-open (błąd
sędziego jest logowany, a odpowiedź jest kontynuowana), a jej tokeny są
rozliczane jako pod-linia sędziego. Zobacz
Referencję sędziego LLM.3. Jeden konkretny przykład — blokuj toksyczne, maskuj niezgodne z marką
Pojedynczy guardrail na etapie wyjścia, który blokuje toksyczną odpowiedź semantycznie i maskuje zakazane terminy markowe w tym, co pozostanie:/console/guardrails → New guardrail, dodaj
dwie reguły i dołącz go do klucza z edytora Token (powiązanie żyje na
kluczu jako guardrail_id). Konfiguracja działa na twojej sesji konsoli, nie
na kluczu relay; tylko wywołanie /v1/* poniżej używa klucza sk-orca-....
guardrail_blocked. Jeśli jest czysta, ale wymienia zakazany termin, ten
fragment renderuje się jako typowana redakcja, a reszta przepływa.
4. Zacznij od presetu
Biblioteka szablonów New guardrail dostarcza gotowe punkty startowe w kategoriach Safety, Brand i Compliance. Preset to zalążek — zastosuj go, a potem edytuj swobodnie.| Kategoria | Preset na etapie wyjścia, od którego zacząć |
|---|---|
| Safety | System-Prompt Leak Detector (output), Strong System Prompt Leak — oflaguj/zablokuj odpowiedzi, które powtarzają tokeny system-promptu lub szablonu czatu. |
| Brand | Profanity Filter (mask) — działa na obu etapach i maskuje słowa z listy odmów w odpowiedzi. (Presety Profanity / Brand Safety i Competitor Mentions w stylu block to zalążki na etapie wejścia; przekieruj kopię na output, jeśli chcesz, by prześwietlały odpowiedź.) |
| Compliance | Legal Disclaimer Enforce — oflaguj odpowiedzi dające definitywną poradę prawną/finansową do przeglądu zespołu. |
5. Strumieniowanie: zastrzeżenie, które ma znaczenie
To, czy reguła wyjścia jest egzekwowana na żywo, zależy od akcji i od tego, czy strumieniujesz.| Akcja | Niestrumieniowane | Strumieniowane |
|---|---|---|
block | Odpowiedź wstrzymana; HTTP 400 guardrail_blocked | Skaner przerywa strumień w locie i emituje wiadomość zastępczą — zablokowana treść nigdy nie dociera do klienta |
mask | Dopasowanie zredagowane w zwróconym tekście | Dziś tylko niestrumieniowane; przepisywanie strumienia w paśmie jest na mapie drogowej |
flag | Rejestruje dopasowanie, nie zmienia nic | Rejestruje dopasowanie, nie zmienia nic |
6. Rekomendowany kształt polityki
Warstwuj trzy reguły w jednym guardrailu
-
keyword/regexnaoutput— wychwyt o zerowym opóźnieniu dla znanych zakazanych terminów i wzorców strukturalnych. -
llm_judgenaoutput— semantyczny wychwyt toksyczności / niezgodności z marką / niezgodności z polityką dla tego, co dosłowna lista pomija. -
Wdrażaj najpierw przez
flag, obserwuj strumień Matches, potem promuj doblock, gdy wskaźnik fałszywych pozytywów jest akceptowalny. Zobacz Tryby egzekwowania.
Referencja Guardrails
Pełna referencja typów reguł, akcji, etapów, sędziego LLM, presetów, eval
harnessu i strumienia Matches.
Eksfiltracja danych
Zatrzymywanie wrażliwych danych przed wyjściem w odpowiedzi modelu lub
wywołaniu narzędzia.
