1. Ochrona przed prompt injection w trzech warstwach
Żadne pojedyncze sprawdzenie nie zatrzymuje każdego injection. OrcaRouter daje ci trzy komplementarne warstwy, które możesz nawarstwić na jednym guardrail:Prompt-Injection Basics
Preset bezpieczeństwa — reguła keyword, która flaguje klasyczne
frazy jailbreak (“ignore previous instructions”, “reveal your system
prompt”) do przeglądu, bez blokowania. Deterministyczna, bez
wywołania modelu.
Reguła intencji LLM-judge
Reguła
llm_judge, która pyta model w twojej przestrzeni roboczej “czy
to próba nadpisania instrukcji systemowych?” — wychwytując
sparafrazowane i zaciemnione injection, jakiego żadna stała lista słów
kluczowych nie potrafi. Nalicza małą sub-linię sędziego.Podświetl niezaufany tekst
Akcja
spotlight owija dopasowane niezaufane wejście w ograniczniki
(np. ⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) i mówi modelowi, by traktował ten region
jako dane, nigdy instrukcje — najsilniejsza obrona dla pośredniego
injection z treści pobranych lub zwróconych przez narzędzia. Użyj
spotlight_whole, by owinąć całe wejście.Dlaczego flag-then-judge. Lista zakazanych słów kluczowych jest szybka i
darmowa, ale krucha — atakujący przeformułowują wokół niej. Sędzia jest
solidny, ale kosztuje sub-wywołanie. Uruchom preset, by zobaczyć, co trafia
w twój ruch, potem dodaj sędziego, by wychwycić przeformułowania. Obie reguły
żyją na jednym guardrail i biegną na tym samym żądaniu.
2. Zacznij od presetu Prompt-Injection Basics
Każdy krok tutaj to akcja konsoli na hostowanej bramie pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie/v1/* używa klucza relay sk-orca-....
Otwórz szablon
W konsoli otwórz Guardrails, kliknij przycisk z podziałem New
guardrail i wybierz Prompt-Injection Basics z kategorii szablonów
Safety. Zasiewa pojedynczą regułę
keyword na etapie input z akcją
flag.Nazwij i zapisz
Nazwij go (≤ 64 znaki), np.
prompt-injection, i zapisz. Preset to
ziarno, nie blokada — dodawaj lub usuwaj frazy swobodnie potem.Przetestuj
Otwórz zakładkę Test, wklej próbkę na etapie
input i uruchom
politykę lokalnie — bez wywołania w górę, bez kwoty (zobacz
§4).Powiąż klucz
Edytuj klucz API i wybierz
prompt-injection z rozwijanej listy
Guardrail (ustawia guardrail_id na kluczu) lub oznacz go jako
domyślny przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.3. Wychwyć to, co keywords pomijają — dodaj regułę llm_judge
Dopasowanie keyword wychwytuje tylko frazy, które wylistowałeś. Dodaj regułęllm_judge do tego samego guardrail, by wychwycić intencję za
przeformułowanym atakiem. Otwórz guardrail, Add rule, wybierz LLM
judge i skonfiguruj:
judge_model
judge_model
Model lub alias routera, który twoja przestrzeń robocza już może wywołać.
Wywołanie sędziego biegnie przez twoje kanały, więc jego tokeny naliczają
się i są przypisywane jak każde inne wywołanie — jako sub-linia sędziego.
judge_format
judge_format
Jedna z
yes_no, score lub category. Dla sprawdzenia injection
yes_no jest naturalnym wyborem (konsola wstępnie go wybiera). Z score
ustaw judge_threshold; z category wylistuj zakazane judge_categories.judge_timeout_ms i judge_fail_open
judge_timeout_ms i judge_fail_open
judge_timeout_ms ogranicza wywołanie (0 → domyślne silnika). Przy
judge_fail_open true (domyślne) błąd sędziego jest rejestrowany, a
żądanie kontynuuje; ustaw false, by traktować błąd lub timeout jako
block tam, gdzie pominięte sprawdzenie jest nieakceptowalne.4. Przetestuj, zanim powiążesz
Udowodnij, że guardrail robi to, czego oczekujesz, zanim jakikolwiek klucz na niego wskaże. Otwórz zakładkę Test wewnątrz edytora, wklej próbkę injection, wybierz etapinput i uruchom:
5. Zobacz, co zadziałało
Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — pokazane w strumieniu Matches przestrzeni roboczej. Gdy guardrail jest w trybie flag, ten strumień jest wartością: pokazuje ci, jak często frazy injection trafiają w twój ruch i jak wyglądają, więc możesz zdecydować, czy egzekwować.6. Nawarstwij to surowszym rodzeństwem
Prompt-Injection Basics to łagodny punkt wyjścia tylko-flag. Kategoria szablonów Safety dostarcza surowsze rodzeństwo, które możesz nawarstwić na tym samym guardrail, gdy jesteś gotów blokować:| Preset | Akcja | Wychwytuje |
|---|---|---|
| Prompt-Injection Basics | flag | Klasyczne frazy — warstwa obserwacji. |
| Jailbreak / Role-Play Blocker | block | Wzorce DAN / developer-mode / “act as”. |
| Jailbreak v2 Regex | block | Nowsze tryby + przemyt niewidzialnych bajtów-tagów Unicode. |
7. Guardrails sprawdzają tekst; firewall rządzi akcjami
Guardrail zatrzymuje wstrzykniętą instrukcję przed dotarciem do modelu. Ale celem udanego injection jest zwykle skłonienie agenta do zrobienia czegoś — wywołania niebezpiecznego narzędzia, eksfiltracji danych, trafienia w wewnętrznego hosta. Ten promień rażenia to zadanie Firewalla: ocenia emitowane przez model wywołania narzędzi i możedeny, sanitize
argumenty lub wymagać zatwierdzenia. Uruchom oba dla obrony w głąb.
Prompt injection (zagrożenie)
Pełny model zagrożeń i gdzie siedzi każda kontrola.
Jailbreaki
Kuzyn injection w postaci obejścia persony.
Niebezpieczne wywołania narzędzi
Co injection próbuje skłonić agenta, by zrobił — i jak firewall to zatrzymuje.
Zabezpieczanie agentów AI
Bazowy stos kontrolny dla obciążeń agentowych.
llm_judge,
wersjonowanie i trasy — przeczytaj
referencję Guardrails.