Przejdź do głównej treści
Dzień, w którym stawiasz agenta przed użytkownikami, to najgorszy dzień, by odkryć, że jailbreak przechodzi prosto przez twoją politykę treści lub że narzędzie, którego zapomniałeś zarządzać, odpala przy pierwszym uruchomieniu. Przedstartowy red team zamienia te niespodzianki w liczbę, którą możesz odczytać, zanim wdrożysz — a OrcaRouter daje ci trzy sposoby, by ją wyprodukować, wszystkie bez dotykania kodu agenta ani wysyłania pojedynczego żywego żądania, którego nie zamierzałeś. Ten przepis to przejście na sucho: zmierz politykę wobec znanych ataków, zacieniuj ją wobec własnego ruchu i zasymuluj ciaśniejszą postawę, zanim się na nią zobowiążesz.
Wszystko tutaj jest tylko do odczytu lub w piaskownicy — bez bloku widocznego dla użytkownika, bez wpływu na ruch produkcyjny. (Reguły słów kluczowych, regex i PII działają całkowicie lokalnie; reguła llm_judge dalej woła swój skonfigurowany model, więc eval nad polityką sędziego robi to wywołanie.) Sednem jest psucie rzeczy przed startem, na twoich warunkach.

1. Jak red-teamować agenta AI przed startem

Przedstartowy red team odpowiada na trzy pytania, a OrcaRouter ma jedno narzędzie do każdego:

Czy mój guardrail wychwytuje ataki?

Uruchom oprawę Eval guardrailu wobec dołączonych korpusów adwersaryjnych i odczytaj precyzję / czułość / F1.

Co zepsułby mój firewall?

Włącz tryb cienia i obserwuj, które prawdziwe wywołania narzędzi by zostały odmówione — bez odmawiania żadnego z nich jeszcze.

Czy ciaśniejsza postawa jest bezpieczna?

Zasymuluj poziom autonomii, aby podejrzeć dokładnie, co zmieniłby wobec twojego ruchu, zanim go zastosujesz.
Pierwsze testuje twoje Guardrails (płaszczyzna tekstu); drugie i trzecie testują twój Firewall (płaszczyzna akcji). Prawdziwa lista kontrolna startu uruchamia wszystkie trzy.

2. Oceń swój guardrail wobec korpusów adwersaryjnych

Najszybszy sposób, by dowiedzieć się, czy polityka treści przetrwa kontakt z atakującym, to rzucić w nią korpus znanych ataków i odczytać wynik. Zakładka Eval edytora guardrailu robi dokładnie to: odtwarza każdą próbkę z korpusu przez twoją bieżącą politykę i porównuje werdykt z oczekiwanym wynikiem każdej próbki — odtwarzając korpus lokalnie wobec twoich reguł, nigdy wobec żywego ruchu. OrcaRouter dostarcza dołączone korpusy red-team, więc nie musisz pozyskiwać własnych. Wśród nich:
KorpusCzym jest
advbench_harmful_behaviorsKanoniczny zestaw celów z adwersaryjnym sufiksem — każdy wiersz to niebezpieczne żądanie, które guardrail powinien zablokować.
anthropic_hh_redteamPrawdziwe wieloturowe transkrypty red-team ludzi wobec asystenta.
deepset_prompt_injectionsOznaczone prompt-injection vs nieszkodliwe żądania — bazowa linia precyzja/czułość dla bloku na etapie input.
databricks_dolly_benignCzysta bazowa linia nieszkodliwa: zbyt ścisła polityka nie powinna zablokować żadnego z nich.
Zawsze paruj korpus ataku z nieszkodliwym. Polityka, która blokuje 100% ataków, ale też blokuje databricks_dolly_benign, nie jest bezpieczna — jest nieużywalna. Przebieg nieszkodliwy to twój budżet fałszywie dodatnich.
Uruchom eval wobec dołączonego korpusu deepset_prompt_injections:
curl https://api.orcarouter.ai/api/guardrail/123/eval \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -H "Content-Type: application/json" \
  -d '{ "corpus_name": "deepset_prompt_injections" }'
Trasy /api/guardrail/* używają twojej sesji konsoli / tokenu dostępu, nie klucza relay sk-orca-... — i są w zakresie przestrzeni roboczej przez X-Workspace-Id. W praktyce uruchomisz to z zakładki Eval w konsoli; curl jest tutaj, by pokazać kształt. Uruchomienie eval jest otwarte dla każdego Membera.
Przebieg raportuje metryki detekcji obliczone wobec oczekiwanych akcji:
  • TP / FP / FN / TN — prawdziwe/fałszywe dodatnie i ujemne, gdzie „fałszywie dodatni” obejmuje wychwycenie ataku niewłaściwą klasą akcji (np. maskowanie, gdy oczekiwałeś bloku).
  • Precyzja / Czułość / F1 — liczby nagłówkowe. Niska czułość oznacza, że ataki przemykają; niska precyzja oznacza, że blokujesz nieszkodliwy ruch.
Otwórz przebieg, by zbadać awarie próbka po próbce, stroić regułę lub rubrykę sędziego i uruchamiać ponownie, aż wynik się utrzyma. Niestandardowe korpusy działają tak samo — prześlij własny JSONL (Developer+), by testować wobec dokładnych kształtów ataku, z którymi mierzy się twój produkt.
Gdzie żyje obrona przed prompt-injection. Dołączony preset Prompt-Injection Basics to reguła słowa kluczowego na akcji flag — wynurza częste frazy jailbreak do przeglądu bez blokowania użytkownika. Dla semantycznej intencji injection, której żadna lista słów kluczowych nie chwyta, dodaj regułę llm_judge i red-teamuj ją tak samo: ewaluuj ją wobec deepset_prompt_injections i anthropic_hh_redteam i odczytaj F1. Zobacz referencję guardrailu.

3. Zacieniuj firewall wobec prawdziwego ruchu

Eval guardrailu testuje tekst wobec stałego korpusu. Twój firewall, przeciwnie, musi być testowany wobec brudnej rzeczywistości tego, co twój agent faktycznie robi — a najbezpieczniejszy sposób, by to zrobić przed startem, to tryb cienia. Tryb cienia to flaga per polityka, która sprawia, że firewall ewaluuje i loguje każde wywołanie narzędzia dokładnie tak, jak robiłby to na produkcji, ale degraduje każdy egzekwujący werdykt do audit. deny staje się wierszem audit, którego powód jest poprzedzony [shadow] would …. Nic nie jest blokowane. Nic się nie psuje. Ale strumień Events teraz pokazuje ci precyzyjną listę wywołań, które twoja polityka by odrzuciła. To firewallowy red team: napisz swoją najściślejszą zamierzoną politykę, włącz tryb cienia, przepuść swojego agenta przez realistyczną próbę startu, potem przeczytaj zdarzenia [shadow] would ….
Zbuduj swoją egzekwującą politykę w konsoli (Developer+) — dla przejścia na sucho przed startem ustaw default_verdict na audit i dodaj reguły deny, które zamierzasz wdrożyć. Przełącz tryb cienia na włączony. Cała polityka teraz loguje bez egzekwowania.
Uruchom swoje prawdziwe przepływy agenta wobec bramy z kluczem dołączonym do zacienionej polityki. Każde wywołanie narzędzia — inbound, response, dyspozycja MCP, egress — jest ewaluowane i logowane.
Otwórz Firewall → Events (Developer+) i filtruj po powodach [shadow] would …. Każdy to wywołanie, które twoja polityka by odmówiła na produkcji. Potwierdź, że każdy wpis to wywołanie, które chcesz odmówić — i że nic uprawnionego nie ma na liście.
Gdy lista byłoby-zablokowane jest czysta, wyłącz tryb cienia. Już następne pasujące wywołanie jest egzekwowane naprawdę — bez żadnej innej zmiany.
Sparuj tryb cienia z trybem obserwacji (ustawienie przestrzeni roboczej) dla pokrycia, nie tylko poprawności. Tryb obserwacji loguje każde wywołanie narzędzia, które rozwiązuje się do braku polityki, jako lukę, zapełniając widok Discovered tools — więc wychwytujesz narzędzie, do którego zapomniałeś napisać regułę, nie tylko reguły, które źle ustawiłeś. Zobacz tryby egzekwowania.

4. Zasymuluj ciaśniejszą postawę, zanim się zobowiążesz

Trzeci ruch red-team jest najtańszy: zanim zastosujesz ściślejszy poziom autonomii, zasymuluj go. Symulator podgląda, co zastosowanie tight (lub dowolnego poziomu) zmieniłoby wobec niedawnego ruchu twojej przestrzeni roboczej — ile wywołań przełączyłoby się na deny — bez zapisywania pojedynczego wiersza polityki.
curl "https://api.orcarouter.ai/api/workspace/firewall/simulate?level=tight" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"
Odczyt symulatora jest otwarty dla każdego Membera. Użyj go, by odpowiedzieć na „czy mój agent jest gotowy na tight?” przed startem: jeśli podgląd pokazuje ścianę potencjalnych odmów na wywołaniach, od których zależy twój agent, masz reguły do zmiękczenia przed go-live, nie incydent po nim.
Simulate jest tylko podglądem — nigdy nie mutuje twoich polityk. Zastosowanie poziomu autonomii to osobna akcja Developer+ i jest jedną transakcją z cofnięciem jednym kliknięciem, jeśli żywy wynik i tak cię zaskoczy.

5. Przedstartowa lista kontrolna red-team

Złóż trzy przejścia razem, a masz bramkę startu:
PrzejścieNarzędzieZielone, gdy
Polityka treściGuardrail Eval vs korpusy ataku + nieszkodliweWysoka czułość na atakach, brak bloków na nieszkodliwych
Polityka akcjiFirewall tryb cienia vs ruch próbyKażdy [shadow] would … jest zamierzony
PokrycieTryb obserwacji + Discovered toolsŻadne zaskakujące narzędzie nie siedzi w luce pokrycia
PostawaSimulate docelowego poziomu autonomiiPodgląd pasuje do tego, czego oczekujesz
Uruchom wszystkie cztery na zielono, potem egzekwuj: wyłącz tryb cienia i zastosuj poziom autonomii. Ponieważ każde powiązanie żyje na kluczu w bramie, przejście z przejścia-na-sucho do żywego to zmiana konfiguracji, nie deploy — twój agent dalej woła https://api.orcarouter.ai/v1/... dokładnie jak wcześniej.
Maskowanie na etapie output i skanowanie odpowiedzi na żywo wciąż dojrzewają — przebieg eval dowodzi logiki reguły w piaskownicy, ale potwierdź swoją konkretną kombinację etapu i strumieniowania wobec notek guardrails, zanim na niej polegniesz na produkcji.

6. Następne kroki

Tryby egzekwowania

Obserwuj → cień → egzekwuj, bezpieczne wdrożenie, które ćwiczy ten przepis.

Baza Secure Agents

Co ustawia każdy poziom autonomii — i jak simulate go podgląda.

Prompt injection

Zagrożenie, wobec którego twój eval guardrailu ocenia.

Wyjdź na żywo

Produkcyjne przełączenie po zaliczeniu red teamu.
Dla pełnych silników stojących za każdym przejściem zobacz referencje Guardrails i Firewall oraz powiązane zagrożenia: jailbreaki oraz dangerous-tool-calls.