1. Przypadek filtra słów wrażliwych ai
Regułakeyword to najprostsza reguła w silniku: dajesz jej listę terminów,
a brama dopasowuje dowolny z nich do tekstu na etapie. Dopasowanie to
podciąg bez rozróżniania wielkości liter — BadWord, badword i
BADWORD wszystkie pasują, a termin pasuje nawet wtedy, gdy jest osadzony w
dłuższym słowie (więc class pasuje też do classic). Każdy termin jest
traktowany jako dosłowny łańcuch, nie wzorzec; nie eskejpujesz metaznaków
regex.
Zapisz regułę raz w konsoli, powiąż guardrail z dowolnym kluczem API (lub
uczyń go domyślnym przestrzeni roboczej), a każde wywołanie tym kluczem jest
sprawdzane bez zmiany SDK i bez ponownego wdrożenia. Polityka żyje w bramie,
nie w twojej aplikacji — twoja aplikacja dalej woła /v1/chat/completions
dokładnie jak wcześniej.
2. Autorzuj regułę w konsoli
Każdy krok tutaj to akcja konsoli pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie/v1/* używa klucza relay sk-orca-....
Utwórz guardrail
W konsoli otwórz Guardrails i kliknij New guardrail. Nazwij go
(≤ 64 znaki), np.
banned-terms.Dodaj regułę keyword
Dodaj jedną regułę:
- Typ: Lista zakazanych słów kluczowych (
keyword) - Etap: Both (żądanie i odpowiedź)
- Akcja: Block
- Słowa kluczowe: twoje zakazane terminy, jeden na wiersz
Przetestuj
Otwórz zakładkę Test, wklej próbkę zawierającą zakazany termin,
wybierz etap i uruchom politykę lokalnie — bez wywołania w górę, bez kwoty
(zobacz §5).
Powiąż klucz
Edytuj klucz API i wybierz
banned-terms z rozwijanej listy Guardrail
(ustawia guardrail_id na kluczu) lub oznacz guardrail jako domyślny
przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.3. Wybierz akcję
Reguła keyword wybiera jedną akcję na regułę:Block — odrzuć wywołanie
Block — odrzuć wywołanie
Dowolne dopasowanie odrzuca żądanie z HTTP 400
guardrail_blocked.
Zablokowane żądanie nie kosztuje kwoty — blokada na etapie wejścia
działa przed pomiarem; blokada na etapie wyjścia zwraca wstępnie pobraną
kwotę — i jest oznaczone jako skip-retry. Użyj dla terminów, które
nigdy nie mogą przejść w żadnym kierunku. Zobacz
błąd guardrail_blocked.Mask — redaguj termin
Mask — redaguj termin
Każde dopasowanie jest zastępowane w miejscu tagiem redakcji, a żądanie
kontynuuje z oczyszczonym tekstem — model nadrzędny nigdy nie widzi
oryginalnego terminu. Zobacz Akcje.
Flag — tylko obserwacja
Flag — tylko obserwacja
Rejestruje dopasowanie i nic nie zmienia w ruchu. Użyj, by zmierzyć, jak
często termin się pojawia, zanim przełączysz na egzekwowanie.
Spotlight — owiń jako niezaufane dane (wejście)
Spotlight — owiń jako niezaufane dane (wejście)
Owija dopasowany tekst w ograniczniki (np.
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧), by model traktował go jako dane, nie
instrukcje — obrona przed prompt-injection na etapie wejścia. Tekst
nadal dociera do modelu, tylko odgrodzony. Zobacz
Akcje.Etap ma znaczenie.
input skanuje żądanie wywołującego, output skanuje
odpowiedź modelu, both skanuje każdą stronę niezależnie. Zakazany termin,
który twoi użytkownicy wpisują, i ten, który model mógłby wyemitować, to różne
problemy — wybierz etap(y), które pasują. Zobacz
Reguły na etapie wejścia i
Reguły na etapie wyjścia.4. Pokrycie streamingu
Akcja, którą wybierzesz, oddziałuje z tym, czy odpowiedź się strumieniuje:| Akcja | Nie-streaming | Streaming |
|---|---|---|
block (wyjście) | Egzekwowane | Egzekwowane — skaner przecina strumień |
mask (wyjście) | Egzekwowane | Jeszcze nie — decyzja block honorowana, zamaskowany tekst nieprzesyłany (plany) |
5. Przetestuj, zanim powiążesz
Udowodnij, że reguła robi to, czego oczekujesz, zanim jakikolwiek klucz na nią wskaże. Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz etap i uruchom:6. Wyślij żądanie
Używając klucza powiązanego zbanned-terms, wywołaj OrcaRouter dokładnie jak
wcześniej — bez nowych nagłówków, bez zmiany SDK:
guardrail_blocked, zanim w ogóle dotrze do modelu. Zamień akcję na mask,
a termin jest zamiast tego redagowany w miejscu przed przesłaniem.
7. Zobacz, co zadziałało
Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów (dla reguł keyword, ile terminów się dopasowało) — pokazane w strumieniu Matches przestrzeni roboczej. Jeśli łagodny termin ciągle się dopasowuje (wpis listy zakazanych będący podciągiem powszechnego słowa), oznacz go jako fałszywie pozytywny ze strumienia Matches i zacieśnij wpis. Zobacz Strojenie fałszywie pozytywnych.8. Dokąd dalej
Detektory regex
Dopasuj ustrukturyzowane wzorce — SKU, numery zamówień, formaty — gdy
dosłowna lista zakazanych nie wystarcza.
Bezpieczeństwo marki
Presety wulgaryzmów, wzmianek o konkurencji i bezpieczeństwa dzieci
zbudowane na regułach keyword.
Akcje
Jak block, mask i flag się różnią i kiedy używać każdej.
Referencja Guardrails
Kompletny silnik — każdy typ reguły, pole i trasa.
llm_judge
uruchamia sprawdzenie semantyczne wobec modelu przestrzeni roboczej.