regex pozwala dopasować ten
kształt przy każdym wywołaniu, a potem go zablokować, zamaskować lub
oflagować, zanim prompt dotrze do modelu i zanim odpowiedź dotrze do
twojego użytkownika.
To skupiona strona docelowa dla przypadku ustrukturyzowanego wzorca. Pełny
silnik guardrail — każdy typ reguły, pole i trasę — znajdziesz w
referencji Guardrails.
api.orcarouter.ai). Autorzysz guardrail pod twoją własną sesją; tylko
końcowe wywołanie /v1/* używa klucza relay sk-orca-.... Tworzenie i edycja
guardrails wymaga Developer+ w przestrzeni roboczej.1. Kiedy potrzebujesz kontroli guardrail regex llm
Regułaregex to właściwe narzędzie, gdy rzecz, którą chcesz wychwycić, ma
strukturę, której dosłowna lista zakazanych nie wyrazi, ale nie jest
standardową tożsamością, którą detektor pii
już obejmuje.
Ustrukturyzowane kody
Tokeny w kształcie formatu
Wzorce wycieku w wyjściu
Tanie, deterministyczne sprawdzenia
2. RE2 — liniowy czas, bez backreferencji
pattern reguły regex to regex Go RE2. RE2 to silnik, który czyni
regułę regex bezpieczną do uruchamiania na każdym żądaniu:
Dopasowanie w czasie liniowym — bez katastrofalnego backtrackingu
Dopasowanie w czasie liniowym — bez katastrofalnego backtrackingu
Bez backreferencji, bez lookaround
Bez backreferencji, bez lookaround
\1), lookahead ani lookbehind. Jeśli
portujesz wzorzec PCRE, który na nich polega, przepisz go bez nich. Klasy
znaków, kotwice, kwantyfikatory, alternacja i grupy nieprzechwytujące
działają zgodnie z oczekiwaniem.Brak rozróżniania wielkości liter i flagi idą we wzorcu
Brak rozróżniania wielkości liter i flagi idą we wzorcu
(?i) dla braku rozróżniania wielkości liter, (?m) dla
multiline. Przykład: (?i)\bproject-orca\b.Wzorzec musi się skompilować — sprawdzane przy zapisie
Wzorzec musi się skompilować — sprawdzane przy zapisie
3. Anatomia reguły regex
Regułaregex to najmniejsza reguła w silniku po keyword: wzorzec, etap i
akcja.
| Pole | Co robi |
|---|---|
pattern | Regex Go RE2 (liniowy czas, bez backreferencji). Musi się skompilować. |
stage | input (żądanie), output (odpowiedź) lub both. |
action | block, mask lub flag. |
[REDACTED] — reguła regex nie jest typowana, więc nie
renderuje tagu per-encja jak [EMAIL]. Jeśli chcesz typowany tag lub
niestandardowy token zamiennika, zamodeluj kształt zamiast tego jako
niestandardową encję PII.
4. Jeden konkretny przykład
Załóżmy, że twoje wewnętrzne numery zamówień wyglądają jakORD- poprzedzone
ośmioma cyframi, a nigdy nie chcesz, by któryś został odbity w odpowiedzi
modelu. Dodaj jedną regułę regex na etapie output:
Utwórz guardrail
order-id-filter.Dodaj regułę regex
ORD-\d{8}. Zapisz.Przetestuj w piaskownicy
output i uruchom
bieżącą politykę lokalnie — bez wywołania w górę, bez kwoty:Powiąż klucz
order-id-filter z rozwijanej listy
Guardrail (ustawia guardrail_id na kluczu) lub oznacz guardrail jako
domyślny przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.5. Pokrycie etapu i streamingu
Akcja, którą wybierzesz, oddziałuje z tym, czy odpowiedź się strumieniuje:| Akcja | Nie-streaming | Streaming |
|---|---|---|
block (wyjście) | Egzekwowane | Egzekwowane — skaner przecina strumień |
mask (wyjście) | Egzekwowane | Egzekwowane — skaner przepisuje bufor |
6. Wybierz akcję
Regułaregex wybiera jedną akcję na regułę:
Block — odrzuć wywołanie
Block — odrzuć wywołanie
guardrail_blocked.
Zablokowane żądanie nie kosztuje kwoty — blokada na etapie wejścia
działa przed pomiarem; blokada na etapie wyjścia zwraca wstępnie pobraną
kwotę — i jest oznaczone jako skip-retry. Zobacz
błąd guardrail_blocked.Mask — redaguj dopasowanie
Mask — redaguj dopasowanie
[REDACTED], a żądanie
kontynuuje z oczyszczonym tekstem — model nadrzędny (etap wejścia) lub twój
użytkownik (etap wyjścia) nigdy nie widzi oryginału. Zobacz
Akcje.Flag — tylko obserwacja
Flag — tylko obserwacja
flag, obserwuj strumień Matches, potem
promuj do mask/block, gdy mu zaufasz.Annotate — dołącz notatkę
Annotate — dołącz notatkę
Spotlight — owiń jako niezaufane dane
Spotlight — owiń jako niezaufane dane
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧), które mówią modelowi, by traktował tekst
jako dane, nie instrukcje — łagodzenie prompt-injection. Zobacz
Akcje.7. Zobacz, co zadziałało — i stroj precyzję
Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — w strumieniu Matches przestrzeni roboczej. Zbyt szeroki wzorzec to klasyczna pułapka regex —\d{8} dopasowuje każdy
ciąg ośmiu cyfr, nie tylko twoje numery zamówień. Zakotwicz go (stały prefiks
jak ORD-, granice słów \b), obserwuj strumień Matches i oznaczaj fałszywie
pozytywne, by zacieśniać w miarę postępu. Po siatkę A/B wobec korpusu —
dowodzącą, że wzorzec wychwytuje to, co powinien, bez flagowania łagodnego
ruchu — harness ewaluacyjny mieszka o
jedną zakładkę dalej. Zobacz
Strojenie fałszywie pozytywnych.
8. Dokąd dalej
Niestandardowe encje PII
[REDACTED].Słowa wrażliwe
Akcje
Referencja Guardrails
regex rządzi treścią. Aby rządzić wywołaniami narzędzi agenta —
odmawiać akcji destrukcyjnych, redagować argumenty wywołań narzędzi, wymagać
zatwierdzenia — użyj Firewalla i jego
matcherów reguł. Dla rozmytych polityk, których
żaden wzorzec nie wyrazi (toksyczność, off-topic, intencja injection), reguła
llm_judge uruchamia sprawdzenie semantyczne wobec modelu przestrzeni
roboczej. Aby zobaczyć, gdzie regex pasuje w ogólnym projekcie, przeczytaj
Guardrails vs Firewall.