Połącz firewall i guardrails — baza Secure Agents

Większość zespołów sięga po bezpieczeństwo agentów zbyt późno i jedną płaszczyznę naraz — regex na promptach tutaj, lista blokad narzędzi tam. Wynikiem jest postawa z dziurami: prześwietlanie tekstu, które nigdy nie widzi shell.exec, albo firewall narzędzi, który nigdy nie zauważa numeru karty kredytowej wychodzącego w promptcie. Najszybszy sposób na kompletną bazę bezpieczeństwa agenta to ustawienie obu płaszczyzn naraz. Kontrola autonomii OrcaRouter — baza Secure Agents — robi dokładnie to: pojedynczy przełącznik na poziomie przestrzeni roboczej, który zapisuje politykę firewalla i guardrail razem, w jednej transakcji, z cofnięciem jednym kliknięciem. Nie piszesz reguły, by być chroniony; wybierasz poziom i stroisz później.

Te dwie płaszczyzny są komplementarne, nie redundantne. Guardrails prześwietlają tekst promptu/odpowiedzi (PII, sekrety, intencja jailbreaka i injection); firewall zarządza akcjami, które agent podejmuje (które narzędzia, wywołania MCP i hosty). Każda sama zostawia lukę, którą druga zamyka — zobacz Guardrails vs. Firewall.

1. Dlaczego jedna baza bije dwa półśrodki

Prawdziwe uruchomienie agenta przekracza obie płaszczyzny w pojedynczym żądaniu. Model odczytuje prompt (tekst), decyduje wywołać db.query (akcja), a wynik narzędzia wraca do następnej tury (znów tekst). Zabezpieczenie tylko jednej płaszczyzny zostawia drugą niestrzeżoną:

Tylko firewall

Odmawiasz destrukcyjnego shella, ale prompt wciąż niesie SSN klienta prosto do modelu — a argument narzędzia wciąż wycieka klucz API.

Tylko guardrails

Maskujesz PII w promptach, ale agent wciąż woła rm -rf, sięga do endpointu metadanych chmury lub pętli na rozbieganym narzędziu.

Kontrola autonomii usuwa wybór. Jeden poziom ustawia spójną postawę w obu płaszczyznach, więc nie ma okna, gdzie jedna jest skonfigurowana, a druga nie.

2. Baza bezpieczeństwa agenta: trzy poziomy

Każdy poziom pokrywa te same dwie płaszczyzny. Wybierz jeden; to twoja podłoga, a precyzję dodajesz regułami później.

Poziom	Firewall	Guardrails	Tryb obserwacji
`tight`	Default-deny; destrukcyjny shell + narzędzia w kształcie fetch odmówione	PII Shield + Secrets Blocker egzekwowane	Wyłączony
`balanced`	Default-audit; destrukcyjny shell odmówiony	PII Shield tylko-audit (flaguje PII)	Wyłączony
`permissive`	Brak egzekwującej polityki	Brak	Włączony — loguje każde wywołanie jako lukę

Kilka szczegółów wartych przypięcia, bo kształtują to, co każdy poziom faktycznie wychwytuje:

Czego `tight` odmawia na płaszczyźnie akcji

tight stempluje werdykt domyślny polityki firewalla na deny, potem warstwuje reguły deny dla nazw narzędzi shell/exec, które niosą destrukcyjne polecenia — shell.*, bash, cmd, powershell, exec — oraz dla nazw narzędzi w kształcie fetch, które niosą SSRF — http_fetch, web_search, fetch_url, request (i ich warianty MCP w przestrzeni <server>.*). Odmawia tych nazw narzędzi; nie dostarcza reguły egress CIDR ani metadanych chmury. Jeśli chcesz odmawiać 169.254.169.254 lub zakresów RFC-1918 po celu, napisz własną regułę egress — zobacz Kontrola egress.

Co `tight` egzekwuje na płaszczyźnie treści

Zarówno guardrail PII Shield, jak i Secrets Blocker są aktywne i egzekwujące. PII Shield maskuje PII w żądaniu, zanim dotrze do modelu; Secrets Blocker wychwytuje poświadczenia w żądaniu. Sekrety w argumentach narzędzi są wychwytywane przez ten guardrail w żądaniu — firewall nie usuwa ich domyślnie.

Dlaczego `balanced` to rekomendowany start

balanced audytuje wszystko (werdykt domyślny audit), więc widzisz prawdziwe zachowanie swojego agenta, wciąż odmawiając pojedynczej najbardziej destrukcyjnej klasy — destrukcyjnego shella. PII Shield działa w trybie tylko-audit (flaguje PII, nie blokuje). Dostajesz pełny ślad z niemal zerowym ryzykiem nieoczekiwanej blokady, potem zacieśniasz z widoczności, a nie zgadywania.

permissive nie egzekwuje niczego — istnieje, by obserwować zupełnie nowego agenta z zerowym ryzykiem przypadkowych blokad. Tryb obserwacji pozostaje włączony, więc każde wywołanie narzędzia jest wciąż logowane jako luka w pokryciu (widoczna w Discovered Tools). Użyj go, by poznać kształt agenta, potem przejdź na balanced lub tight.

3. Jeden konkretny przykład: zastosuj `balanced`, obserwuj oba strumienie

Zastosowanie poziomu to pojedyncza akcja w konsoli (Firewall → Posture) lub jedno wywołanie API. Trasa działa pod twoją sesją i wymaga Developer+.

# Configure in the console, or POST under your session token (Developer+):
POST /api/workspace/firewall/autonomy
Content-Type: application/json

{ "level": "balanced" }

Odpowiedź niesie audit_id — zachowaj go; to, co przekazujesz, by cofnąć. Po zastosowaniu baza jest na żywo przy następnym wywołaniu narzędzia. Bez ponownego wdrożenia, bez zmiany w kodzie agenta. Teraz obserwujesz obie płaszczyzny naraz:

Firewall → Events — każdy werdykt wywołania narzędzia (audit, odmówione wywołania destrukcyjnego shella). Zobacz Log zdarzeń.
Guardrails → Matches — każde trafienie polityki treści (flagi PII Shield).

Ponieważ balanced zapisuje rzeczywistą, edytowalną politykę firewalla i rzeczywisty guardrail (każdy nazwany od poziomu), możesz otworzyć którykolwiek potem i go dostroić — baza to punkt wyjścia, nie zablokowany preset.

Podejrzyj, zanim się zdecydujesz. GET /api/workspace/firewall/simulate?level=tight (Member, tylko-do-odczytu) pokazuje dokładnie, co tight by zmienił wobec twojego bieżącego stanu — nic nie jest stosowane. Uruchom to po dniu lub dwóch na balanced, by potwierdzić, że tight nie odmówi wywołań, które są częścią twojego normalnego ruchu.

4. Cofnięcie to jedno wywołanie

Każda zmiana autonomii jest odwracalna z jej migawki audytu, przywracając dokładny poprzedni stan — polityki, reguły, guardrails i ustawienia — nie generyczny reset.

# Developer+; :audit_id is the value returned when you applied the level.
POST /api/workspace/firewall/autonomy/undo/:audit_id

Dla bardzo dużej przestrzeni roboczej, której migawka przekracza limit rozmiaru logu audytu, zastosowanie wciąż się udaje, ale cofnięcie jednym kliknięciem jest niedostępne dla tej zmiany — zamiast tego ponownie stosujesz poziom, który chcesz. To rzadkie, ale warte poznania, zanim zacieśnisz zajętą produkcyjną przestrzeń roboczą.

5. Rekomendowana ścieżka

Zacznij szeroko, obserwuj, potem zacieśniaj z pozycji widoczności:

Zastosuj balanced

Pełny ślad audytu; odmawiany jest tylko destrukcyjny shell; PII jest flagowane. Uruchamiaj swoje agenty normalnie przez dzień lub dwa.

Symuluj tight

GET /api/workspace/firewall/simulate?level=tight i porównaj jego odmowy z tym, co strumień Events faktycznie pokazał. Jeśli wywołania w kształcie fetch lub destrukcyjnego shella są częścią twojego normalnego przepływu, napraw najpierw agenta.

Zastosuj tight

Gdy symulacja nie kryje niespodzianek, przełącz na tight. Cofnięcie jest o jedno wywołanie, jeśli produkcja się zepsuje.

Stroj regułami

Baza to twoja podłoga. Wykrój wyjątki lub dodaj kontrole, których nie pokrywa, regułami firewalla i nazwanymi guardrails. Przypnij konkretną politykę lub guardrail do pojedynczego klucza dla drobniejszego zakresu.

6. Role dla połączonej bazy

Kontrola autonomii obejmuje obie płaszczyzny, ale każda akcja jest bramkowana rolą.

Akcja	Minimalna rola
Symuluj poziom / zobacz Matches guardrail / zobacz Discovered Tools	Member
Zobacz Events i Runs firewalla	Developer+
Zastosuj poziom autonomii	Developer+
Cofnij zmianę autonomii	Developer+

Cała konfiguracja działa w konsoli pod twoją sesją (/api/workspace/firewall/* i /api/guardrail/*). Tylko wywołania relay /v1/* używają klucza sk-orca-…; trasy klucza gateway to osobny zakres. Zobacz Zakres: klucze, polityki, przestrzenie robocze.

7. Po bazie: gdzie stroić każdą płaszczyznę

Baza chroni cię w pierwszych 30 minutach. Stamtąd każda płaszczyzna ma własną referencję do pracy precyzyjnej:

Przegląd Firewall

Werdykty, powierzchnie, predykaty argumentów, zatwierdzenia — płaszczyzna akcji.

Guardrails

Reguły keyword, regex, PII, llm_judge i grounding — płaszczyzna treści.

Tryb cienia

Wytocz zacieśnioną politykę firewalla w trybie tylko-audit przed egzekwowaniem.

Baza Secure Agents

Strona koncepcyjna dla kontroli autonomii i jej semantyki cofania.

Baza to podłoga, która zamyka obie płaszczyzny naraz; reguły to sposób, w jaki podnosisz sufit. Zobacz Zabezpieczanie agentów AI i stos kontrolny dla tego, jak warstwy się komponują, oraz Nadmierną sprawczość dla zagrożenia, na które ta baza odpowiada najbardziej bezpośrednio.

​1. Dlaczego jedna baza bije dwa półśrodki

Tylko firewall

Tylko guardrails

​2. Baza bezpieczeństwa agenta: trzy poziomy

​3. Jeden konkretny przykład: zastosuj balanced, obserwuj oba strumienie

​4. Cofnięcie to jedno wywołanie

​5. Rekomendowana ścieżka

​6. Role dla połączonej bazy

​7. Po bazie: gdzie stroić każdą płaszczyznę

Przegląd Firewall

Guardrails

Tryb cienia

Baza Secure Agents

1. Dlaczego jedna baza bije dwa półśrodki

2. Baza bezpieczeństwa agenta: trzy poziomy

3. Jeden konkretny przykład: zastosuj `balanced`, obserwuj oba strumienie

4. Cofnięcie to jedno wywołanie

5. Rekomendowana ścieżka

6. Role dla połączonej bazy

7. Po bazie: gdzie stroić każdą płaszczyznę