1. Dlaczego sprawdzanie w bramie ma znaczenie dla obrony przed jailbreak LLM
Własny trening bezpieczeństwa modelu to pierwsza linia, nie jedyna. Modele są trenowane na nowych korpusach ataków, ale frazy jailbreak ewoluują szybciej niż cykle treningowe. Reguła bramy odpala deterministycznie — nie zależy od wewnętrznego stanu modelu — i ma równie zastosowanie do każdego modelu za twoim kluczem, w tym fine-tunów i otwartych wag, które mogą mieć słabsze wbudowane guardrails. Sprawdzanie w bramie daje też ślad audytu. Każda reguła, która odpali, ląduje w strumieniu Matches przestrzeni roboczej — typ reguły, akcja, szczegóły, etap — niezależnie od tego, co model ostatecznie zwrócił.2. Dwa typy reguł do sprawdzania jailbreaku
Silnik guardrail OrcaRouter oferuje dwa uzupełniające się podejścia. Używaj ich razem dla obrony w głębi.Sprawdzenie semantyczne — llm_judge
Reguła llm_judge uruchamia semantyczne sprawdzenie wobec modelu w twojej
przestrzeni roboczej. Piszesz rubrykę opisującą, co liczy się jako próba
jailbreaku; silnik dołącza appendix JSON-schema, aby model zwracał parygowalny
werdykt.
judge_fail_open: true (domyślne) oznacza, że timeout lub błąd sędziego jest
rejestrowany jako telemetria, a żądanie kontynuuje — bezpieczeństwo się
degraduje, dostępność jest zachowana. Ustaw na false, aby fail closed, jeśli
pominięte sprawdzenie jest nieakceptowalne dla twojego przypadku użycia.
Wywołanie sędziego kieruje się przez kanały twojej przestrzeni roboczej;
tokeny są naliczane i atrybuowane jako sub-linia sędziego.
Dosłowny denylist — keyword i regex
Dla znanych fraz jailbreaku i wzorców strukturalnych reguły keyword i
regex są deterministyczne i nie dodają żadnego opóźnienia — biegną na
gorącej ścieżce bez wywołania sieciowego.
keyword to dopasowanie podłańcucha bez rozróżniania wielkości liter. Termin
taki jak do anything now pasuje też do Do Anything Now i you can do anything now.
regex akceptuje wzorce RE2 (czas liniowy, brak backreferencji). Używaj go
dla wzorców sztuczek kodowania lub wariantów strukturalnych, których dosłowna
lista nie może obejmować.
3. Sprawdzanie na etapie wyjściowym
Sprawdzanie wejścia wychwytuje próbę. Sprawdzanie na etapie wyjściowym wychwytuje pomyślne obejście — odpowiedź, która nie powinna była być wyprodukowana, niezależnie od tego dlaczego. Dodaj drugą regułęllm_judge lub keyword na stage: "output", aby
flagować lub blokować odpowiedź zawierającą niedozwoloną treść, zanim
dotrze do klienta.
Streaming vs. niestrumieniowe
Akcja ma tutaj znaczenie:| Akcja | Niestrumieniowe | Strumieniowe |
|---|---|---|
block | Odpowiedź jest wstrzymana; HTTP 400 guardrail_blocked | Skaner przerywa strumień w locie i emituje wiadomość zastępczą — zablokowana treść nigdy nie dociera do klienta |
mask | Dopasowanie jest redagowane w zwrócanym tekście | Obecnie ma zastosowanie tylko do niestrumieniowych odpowiedzi; przepisywanie strumienia in-band jest w planie działań |
block działa
poprawnie.
Zablokowane żądanie nie kosztuje żadnego limitu. Blokada na etapie
wyjściowym zwraca wstępnie pobraną porcję po odrzuceniu odpowiedzi. Wywołujący
otrzymuje HTTP 400
guardrail_blocked nazywający guardrail i regułę, która
odpaliła.4. Preset bezpieczeństwa Jailbreak
Konsola dostarcza preset Jailbreak w kategorii szablonów Safety obok Prompt-Injection Basics. Łączy wejściową regułęllm_judge i keyword
denylist znanych fraz jailbreaku jako gotowy punkt startowy.
Aby zastosować: otwórz /console/guardrails → New guardrail → przeglądaj
bibliotekę szablonów → Safety → Jailbreak. Preset to ziarno — edytuj
rubrykę, rozszerz listę słów kluczowych i dodaj reguły na etapie wyjściowym,
aby dopasować potrzeby swojej aplikacji.
5. Testuj swoją politykę przed wysyłką
Przed dołączeniem guardrail jailbreaku do klucza produkcyjnego, waliduj go w harnessie eval / red-team na zakładce Eval wewnątrz edytora guardrail.- Dołączone korpusy adversarialne — brama dostarcza zestawy red-team zawierające warianty jailbreaku, wielojęzyczne obejście i sztuczki kodowania. Uruchom swoją politykę wobec nich, aby zmierzyć wskaźnik przechwytywania przed zobaczeniem rzeczywistego ruchu.
- Niestandardowe korpusy — wgraj własny JSONL do testowania wobec fraz specyficznych dla twojej domeny lub modelu zagrożeń.
- Korpusy fałszywie pozytywnych — łagodne zestawy są dostarczane obok adversarialnych. Uruchom oba, aby potwierdzić, że nie blokujesz legalnego ruchu.
- Uruchomienia eval są listowane z wynikami; otwórz uruchomienie, aby zbadać błędy próbka po próbce i dostroić rubrykę.
6. Rekomendowany kształt polityki
Solidna polityka jailbreaku warstwuje trzy reguły w jednym guardrail:| # | Reguła | Etap | Akcja | Dlaczego |
|---|---|---|---|---|
| 1 | keyword — znane frazy jailbreaku | input | block | Zero opóźnienia; deterministycznie wychwytuje znane frazy |
| 2 | llm_judge — rubryka intencji jailbreaku | input | block | Wychwytuje nowe warianty i sztuczki kodowania, które lista słów kluczowych pomija |
| 3 | llm_judge — rubryka niedozwolonej odpowiedzi | output | block | Obrona w głębi: blokuje pomyślne obejście, zanim dotrze do klienta |
block tylko po uruchomieniu eval, które pokazuje
akceptowalny wskaźnik fałszywie pozytywnych. Zobacz
Tryby egzekwowania dla wzorca
wdrożenia obserwacja → cień → egzekwowanie używającego akcji flag i trybu
cienia.
7. Relacja z prompt injection
Jailbreaki i prompt injection to odrębne, ale nakładające się zagrożenia:- Jailbreak atakuje trening bezpieczeństwa modelu — atakujący kontroluje bezpośrednią wiadomość użytkownika i ją tworzy, aby stłumić guardrails.
- Prompt injection atakuje śledzenie instrukcji — niezaufana treść (strona internetowa, wynik narzędzia, dokument) niesie instrukcje, które model traktuje jako dyrektywy.
llm_judge i keyword wychwytują obie; rubryka się różni.
Dla obciążeń agentów, które przyjmują niezaufane dokumenty lub treści
internetowe, uruchom sprawdzanie injection obok sprawdzania jailbreaku. Zobacz
Prompt injection dla wzorców reguł
specyficznych dla injection.
Referencja guardrails
Pełna referencja dla typów reguł, akcji, etapów, sędziego LLM, harnessa
eval i strumienia Matches.
Prompt injection
Sprawdzanie wstrzykniętych instrukcji z niezaufanej treści w potokach
agentów.
