https://api.orcarouter.ai/v1/... dokładnie jak
wcześniej.
Nowy w modelu? Przeczytaj
Tryby egzekwowania dla tego, co
każda postawa robi mechanicznie, oraz
bazę Secure Agents dla tego,
co ustawia każdy poziom autonomii. Ta strona to sekwencja — kolejność, w
której przełączasz przełączniki.
1. Wdrożenie bezpieczeństwa AI w trzech ruchach
Całe wdrożenie wymienia autonomię na bezpieczeństwo w trzech krokach, każdy zweryfikowany wobec żywego ruchu przed następnym:Obserwuj
Pozwól na wszystko, loguj wszystko. Niepokryte wywołania narzędzi lądują w
Discovered Tools; reguły guardrailu
flag rejestrują dopasowania bez
zmiany ruchu. Poznajesz prawdziwy kształt swojego agenta.Cień
Prawdziwa polityka ewaluuje każde wywołanie, ale każdy egzekwujący werdykt
jest degradowany do
audit i logowany [shadow] would …. Widzisz
dokładnie, co by zablokowało — z niczym faktycznie zablokowanym.Egzekwuj
Cień wyłączony.
deny blokuje, mask redaguje, pending_approval
wstrzymuje. Autonomia idzie od szerokiej (balanced) do ciasnej
(tight), a twój agent jest zarządzany.2. Ruch pierwszy — obserwuj (autonomia = permissive)
Zacznij tak szeroko, jak się da. Zastosuj poziom autonomiipermissive z
Firewall → Posture (Developer+) — lub
POST /api/workspace/firewall/autonomy. Włącza on tryb obserwacji
przestrzeni roboczej i nie pozostawia żadnej egzekwującej polityki, więc każde
wywołanie jest dozwolone, a każde niepokryte wywołanie jest logowane jako
luka pokrycia.
- Firewall → Discovered Tools (Member) — każde narzędzie, które woła twój agent, oznaczone covered lub gap. To wejście do twoich reguł: za chwilę napiszesz politykę dla ruchu, który faktycznie się dzieje, nie dla hipotez.
- Guardrails → Matches (Member) — jeśli dodałeś jakiekolwiek reguły na
akcji
flag, każde dopasowanie, które rejestrują, bez dotykania żądania.
3. Ruch drugi — cień (prawdziwa polityka, zero blokowania)
Teraz napisz politykę, której faktycznie chcesz — globy narzędzi, klauzule argumentów, listy egress, pułapcap_cost — i włącz shadow_mode, zanim
ją dołączysz. (Buduj reguły z reguł firewalla;
pełny model polityki jest w referencji Firewall.)
shadow_mode: true ten deny i ten cap_cost są oba degradowane do
audit w czasie ewaluacji — silnik oblicza prawdziwy werdykt, loguje go z
przedrostkiem [shadow] would … i przepuszcza wywołanie. Dołącz politykę do
kluczy, które wdrażasz (ustaw firewall_policy_id na kluczu) lub uczyń ją
domyślną przestrzeni roboczej.
Potem przeczytaj Firewall → Events / Runs (Developer+) filtrowane do
przedrostka [shadow] i potwierdź obie strony:
Odpala tam, gdzie zamierzałeś
Odpala tam, gdzie zamierzałeś
Każde wywołanie
shell.exec pokazuje [shadow] would deny. Każde
uruchomienie, które przekracza twój limit, pokazuje
[shadow] would cap_cost. Polityka widzi ruch, dla którego ją zbudowałeś.NIE odpala tam, gdzie nie zamierzałeś
NIE odpala tam, gdzie nie zamierzałeś
Żadne uprawnione narzędzie nie pojawia się z werdyktem byłoby-zablokowane.
To sprawdzenie fałszywie dodatnich — powód, dla którego istnieje cień.
Jeśli narzędzie, którego potrzebujesz, jest zflagowane, napraw regułę i
ponownie obserwuj, zanim kiedykolwiek egzekwujesz.
4. Ruch trzeci — egzekwuj (autonomia balanced, potem tight)
Gdy log cienia wygląda dobrze, egzekwuj w dwóch etapach, nie jednym. Nie skacz wprost do domyślnej odmowy. Najpierwbalanced. To rekomendowana pierwsza egzekwująca postawa:
domyślny werdykt firewalla to audit, ale najbardziej destrukcyjne akcje
(jak destrukcyjny shell) są odmawiane, a guardrail PII Shield działa
tylko-audit — flaguje PII bez maskowania go jeszcze. Teraz blokujesz
najgorszą rzecz, jednocześnie wciąż obserwując resztę.
Wyłącz shadow_mode na swojej własnej polityce w tym samym ruchu, aby jej
werdykty deny / cap_cost weszły na żywo obok bazy.
[shadow]. Odmówione wywołanie narzędzia zwraca HTTP 400
firewall_blocked; jest skip-retry i nie kosztuje tokenów modelu.
Potem tight. Gdy balanced jest cichy, przejdź do domyślnej odmowy.
Poziom tight odmawia domyślnie, odmawia destrukcyjnego shella oraz egress
SSRF i egzekwuje PII Shield + Secrets Blocker — PII jest maskowane na
żądaniu, zanim model je zobaczy, a sekrety w twoich żądaniach są blokowane.
Zablokowany prompt zwraca HTTP 400 guardrail_blocked, kosztuje zero
kwoty i jest skip-retry.
| Etap | Firewall (akcje) | Guardrails (tekst) | Co dowodzisz |
|---|---|---|---|
permissive | Obserwuj; nic nie zablokowane | tylko flag | Prawdziwy kształt ruchu |
balanced | Domyślny audit; destrukcyjny shell odmówiony | PII zflagowane | Najgorszy przypadek jest zatrzymany |
tight | Domyślna odmowa; shell + narzędzia w kształcie fetch (SSRF) odmówione | PII zamaskowane, sekrety zablokowane | Pełny zero-trust |
Zastrzeżenie strumieniowania dla PII. Pod
tight PII Shield maskuje PII
na żądaniu, zanim model je zobaczy — to jest na żywo. Maskowanie
odpowiedzi strumieniowanej po stronie wyjścia nie jest jeszcze na żywo;
block na wyjściu jest egzekwowany na strumieniu (skaner tnie strumień).
Jeśli zależysz od redagowania wyjścia modelu, zweryfikuj swoją kombinację
etapu/strumienia w zakładce Test guardrailu najpierw. Zobacz
Guardrails.5. Klapa bezpieczeństwa — cofnięcie jednym kliknięciem
Każda zmiana autonomii to pojedyncza transakcja, która robi migawkę twojej poprzedniej postawy, więc możesz wrócić wprost z Firewall → Posture (lubPOST /api/workspace/firewall/autonomy/undo/:audit_id). Możesz też po prostu
ponownie zastosować łagodniejszy poziom — zrzucić tight z powrotem do
balanced lub balanced z powrotem do permissive — w dowolnym momencie.
6. Skąd biorą się werdykty każdego ruchu
Wdrożenie nigdy nie blokuje czegoś, o co nie poprosiłeś, ponieważ każda postawa mapuje się na wyraźny, obserwowalny mechanizm:| Postawa | Mechanizm | Wynik |
|---|---|---|
| Obserwuj | Przestrzeń robocza firewall_observe_mode włączony + guardrail flag | Pozwól + loguj luki / dopasowania |
| Cień | Per polityka shadow_mode | Prawdziwy werdykt obliczony, degradowany do audit, logowany [shadow] would … |
| Egzekwuj | shadow_mode wyłączony + autonomia tight/balanced | deny / mask / cap_cost wchodzą na żywo |
audit, akcja flag oraz
shadow_mode — to odrębne przełączniki, udokumentowane obok siebie w
Trybach egzekwowania.
7. Następne kroki
Tryby egzekwowania
Mapa mechanizmów stojąca za observe, cieniem i egzekwowaniem.
Baza Secure Agents
Co ustawia każdy poziom autonomii i jak go najpierw zasymulować.
Okiełznaj agenta autonomicznego
Następny krok po egzekwowaniu: limity kosztu, wykrywanie anomalii i
zatwierdzenia.
Agent Firewall
Polityki, reguły, werdykty, tryb cienia i brama MCP w całości.
