Wszystko tutaj jest tylko do odczytu lub w piaskownicy — bez bloku widocznego
dla użytkownika, bez wpływu na ruch produkcyjny. (Reguły słów kluczowych,
regex i PII działają całkowicie lokalnie; reguła
llm_judge dalej woła swój
skonfigurowany model, więc eval nad polityką sędziego robi to wywołanie.)
Sednem jest psucie rzeczy przed startem, na twoich warunkach.1. Jak red-teamować agenta AI przed startem
Przedstartowy red team odpowiada na trzy pytania, a OrcaRouter ma jedno narzędzie do każdego:Czy mój guardrail wychwytuje ataki?
Uruchom oprawę Eval guardrailu wobec dołączonych korpusów
adwersaryjnych i odczytaj precyzję / czułość / F1.
Co zepsułby mój firewall?
Włącz tryb cienia i obserwuj, które prawdziwe wywołania narzędzi by
zostały odmówione — bez odmawiania żadnego z nich jeszcze.
Czy ciaśniejsza postawa jest bezpieczna?
Zasymuluj poziom autonomii, aby podejrzeć dokładnie, co zmieniłby
wobec twojego ruchu, zanim go zastosujesz.
2. Oceń swój guardrail wobec korpusów adwersaryjnych
Najszybszy sposób, by dowiedzieć się, czy polityka treści przetrwa kontakt z atakującym, to rzucić w nią korpus znanych ataków i odczytać wynik. Zakładka Eval edytora guardrailu robi dokładnie to: odtwarza każdą próbkę z korpusu przez twoją bieżącą politykę i porównuje werdykt z oczekiwanym wynikiem każdej próbki — odtwarzając korpus lokalnie wobec twoich reguł, nigdy wobec żywego ruchu. OrcaRouter dostarcza dołączone korpusy red-team, więc nie musisz pozyskiwać własnych. Wśród nich:| Korpus | Czym jest |
|---|---|
advbench_harmful_behaviors | Kanoniczny zestaw celów z adwersaryjnym sufiksem — każdy wiersz to niebezpieczne żądanie, które guardrail powinien zablokować. |
anthropic_hh_redteam | Prawdziwe wieloturowe transkrypty red-team ludzi wobec asystenta. |
deepset_prompt_injections | Oznaczone prompt-injection vs nieszkodliwe żądania — bazowa linia precyzja/czułość dla bloku na etapie input. |
databricks_dolly_benign | Czysta bazowa linia nieszkodliwa: zbyt ścisła polityka nie powinna zablokować żadnego z nich. |
deepset_prompt_injections:
- TP / FP / FN / TN — prawdziwe/fałszywe dodatnie i ujemne, gdzie „fałszywie dodatni” obejmuje wychwycenie ataku niewłaściwą klasą akcji (np. maskowanie, gdy oczekiwałeś bloku).
- Precyzja / Czułość / F1 — liczby nagłówkowe. Niska czułość oznacza, że ataki przemykają; niska precyzja oznacza, że blokujesz nieszkodliwy ruch.
Gdzie żyje obrona przed prompt-injection. Dołączony preset
Prompt-Injection Basics to reguła słowa kluczowego na akcji flag —
wynurza częste frazy jailbreak do przeglądu bez blokowania użytkownika. Dla
semantycznej intencji injection, której żadna lista słów kluczowych nie
chwyta, dodaj regułę
llm_judge i red-teamuj ją tak samo: ewaluuj ją wobec
deepset_prompt_injections i anthropic_hh_redteam i odczytaj F1. Zobacz
referencję guardrailu.3. Zacieniuj firewall wobec prawdziwego ruchu
Eval guardrailu testuje tekst wobec stałego korpusu. Twój firewall, przeciwnie, musi być testowany wobec brudnej rzeczywistości tego, co twój agent faktycznie robi — a najbezpieczniejszy sposób, by to zrobić przed startem, to tryb cienia. Tryb cienia to flaga per polityka, która sprawia, że firewall ewaluuje i loguje każde wywołanie narzędzia dokładnie tak, jak robiłby to na produkcji, ale degraduje każdy egzekwujący werdykt doaudit. deny staje się
wierszem audit, którego powód jest poprzedzony [shadow] would …. Nic nie
jest blokowane. Nic się nie psuje. Ale strumień Events teraz pokazuje ci
precyzyjną listę wywołań, które twoja polityka by odrzuciła.
To firewallowy red team: napisz swoją najściślejszą zamierzoną politykę,
włącz tryb cienia, przepuść swojego agenta przez realistyczną próbę startu,
potem przeczytaj zdarzenia [shadow] would ….
Napisz politykę, potem ją zacieniuj
Napisz politykę, potem ją zacieniuj
Zbuduj swoją egzekwującą politykę w konsoli (Developer+) — dla
przejścia na sucho przed startem ustaw
default_verdict na audit i
dodaj reguły deny, które zamierzasz wdrożyć. Przełącz tryb cienia na
włączony. Cała polityka teraz loguje bez egzekwowania.Ćwicz agenta jak w dniu startu
Ćwicz agenta jak w dniu startu
Uruchom swoje prawdziwe przepływy agenta wobec bramy z kluczem dołączonym
do zacienionej polityki. Każde wywołanie narzędzia — inbound, response,
dyspozycja MCP, egress — jest ewaluowane i logowane.
Przeczytaj listę byłoby-zablokowane
Przeczytaj listę byłoby-zablokowane
Otwórz Firewall → Events (Developer+) i filtruj po powodach
[shadow] would …. Każdy to wywołanie, które twoja polityka by odmówiła
na produkcji. Potwierdź, że każdy wpis to wywołanie, które chcesz
odmówić — i że nic uprawnionego nie ma na liście.Wyłącz cień, by wyjść na żywo
Wyłącz cień, by wyjść na żywo
Gdy lista byłoby-zablokowane jest czysta, wyłącz tryb cienia. Już następne
pasujące wywołanie jest egzekwowane naprawdę — bez żadnej innej zmiany.
4. Zasymuluj ciaśniejszą postawę, zanim się zobowiążesz
Trzeci ruch red-team jest najtańszy: zanim zastosujesz ściślejszy poziom autonomii, zasymuluj go. Symulator podgląda, co zastosowanietight (lub dowolnego
poziomu) zmieniłoby wobec niedawnego ruchu twojej przestrzeni roboczej — ile
wywołań przełączyłoby się na deny — bez zapisywania pojedynczego wiersza
polityki.
tight?” przed startem: jeśli
podgląd pokazuje ścianę potencjalnych odmów na wywołaniach, od których zależy
twój agent, masz reguły do zmiękczenia przed go-live, nie incydent po nim.
Simulate jest tylko podglądem — nigdy nie mutuje twoich polityk. Zastosowanie
poziomu autonomii to osobna akcja Developer+ i jest jedną transakcją z
cofnięciem jednym kliknięciem, jeśli żywy wynik i tak cię zaskoczy.
5. Przedstartowa lista kontrolna red-team
Złóż trzy przejścia razem, a masz bramkę startu:| Przejście | Narzędzie | Zielone, gdy |
|---|---|---|
| Polityka treści | Guardrail Eval vs korpusy ataku + nieszkodliwe | Wysoka czułość na atakach, brak bloków na nieszkodliwych |
| Polityka akcji | Firewall tryb cienia vs ruch próby | Każdy [shadow] would … jest zamierzony |
| Pokrycie | Tryb obserwacji + Discovered tools | Żadne zaskakujące narzędzie nie siedzi w luce pokrycia |
| Postawa | Simulate docelowego poziomu autonomii | Podgląd pasuje do tego, czego oczekujesz |
https://api.orcarouter.ai/v1/... dokładnie jak
wcześniej.
6. Następne kroki
Tryby egzekwowania
Obserwuj → cień → egzekwuj, bezpieczne wdrożenie, które ćwiczy ten przepis.
Baza Secure Agents
Co ustawia każdy poziom autonomii — i jak
simulate go podgląda.Prompt injection
Zagrożenie, wobec którego twój eval guardrailu ocenia.
Wyjdź na żywo
Produkcyjne przełączenie po zaliczeniu red teamu.
