Przejdź do głównej treści
Większość zespołów sięga po bezpieczeństwo agentów zbyt późno i jedną płaszczyznę naraz — regex na promptach tutaj, lista blokad narzędzi tam. Wynikiem jest postawa z dziurami: prześwietlanie tekstu, które nigdy nie widzi shell.exec, albo firewall narzędzi, który nigdy nie zauważa numeru karty kredytowej wychodzącego w promptcie. Najszybszy sposób na kompletną bazę bezpieczeństwa agenta to ustawienie obu płaszczyzn naraz. Kontrola autonomii OrcaRouter — baza Secure Agents — robi dokładnie to: pojedynczy przełącznik na poziomie przestrzeni roboczej, który zapisuje politykę firewalla i guardrail razem, w jednej transakcji, z cofnięciem jednym kliknięciem. Nie piszesz reguły, by być chroniony; wybierasz poziom i stroisz później.
Te dwie płaszczyzny są komplementarne, nie redundantne. Guardrails prześwietlają tekst promptu/odpowiedzi (PII, sekrety, intencja jailbreaka i injection); firewall zarządza akcjami, które agent podejmuje (które narzędzia, wywołania MCP i hosty). Każda sama zostawia lukę, którą druga zamyka — zobacz Guardrails vs. Firewall.

1. Dlaczego jedna baza bije dwa półśrodki

Prawdziwe uruchomienie agenta przekracza obie płaszczyzny w pojedynczym żądaniu. Model odczytuje prompt (tekst), decyduje wywołać db.query (akcja), a wynik narzędzia wraca do następnej tury (znów tekst). Zabezpieczenie tylko jednej płaszczyzny zostawia drugą niestrzeżoną:

Tylko firewall

Odmawiasz destrukcyjnego shella, ale prompt wciąż niesie SSN klienta prosto do modelu — a argument narzędzia wciąż wycieka klucz API.

Tylko guardrails

Maskujesz PII w promptach, ale agent wciąż woła rm -rf, sięga do endpointu metadanych chmury lub pętli na rozbieganym narzędziu.
Kontrola autonomii usuwa wybór. Jeden poziom ustawia spójną postawę w obu płaszczyznach, więc nie ma okna, gdzie jedna jest skonfigurowana, a druga nie.

2. Baza bezpieczeństwa agenta: trzy poziomy

Każdy poziom pokrywa te same dwie płaszczyzny. Wybierz jeden; to twoja podłoga, a precyzję dodajesz regułami później.
PoziomFirewallGuardrailsTryb obserwacji
tightDefault-deny; destrukcyjny shell + narzędzia w kształcie fetch odmówionePII Shield + Secrets Blocker egzekwowaneWyłączony
balancedDefault-audit; destrukcyjny shell odmówionyPII Shield tylko-audit (flaguje PII)Wyłączony
permissiveBrak egzekwującej politykiBrakWłączony — loguje każde wywołanie jako lukę
Kilka szczegółów wartych przypięcia, bo kształtują to, co każdy poziom faktycznie wychwytuje:
tight stempluje werdykt domyślny polityki firewalla na deny, potem warstwuje reguły deny dla nazw narzędzi shell/exec, które niosą destrukcyjne polecenia — shell.*, bash, cmd, powershell, exec — oraz dla nazw narzędzi w kształcie fetch, które niosą SSRF — http_fetch, web_search, fetch_url, request (i ich warianty MCP w przestrzeni <server>.*). Odmawia tych nazw narzędzi; nie dostarcza reguły egress CIDR ani metadanych chmury. Jeśli chcesz odmawiać 169.254.169.254 lub zakresów RFC-1918 po celu, napisz własną regułę egress — zobacz Kontrola egress.
Zarówno guardrail PII Shield, jak i Secrets Blocker są aktywne i egzekwujące. PII Shield maskuje PII w żądaniu, zanim dotrze do modelu; Secrets Blocker wychwytuje poświadczenia w żądaniu. Sekrety w argumentach narzędzi są wychwytywane przez ten guardrail w żądaniu — firewall nie usuwa ich domyślnie.
balanced audytuje wszystko (werdykt domyślny audit), więc widzisz prawdziwe zachowanie swojego agenta, wciąż odmawiając pojedynczej najbardziej destrukcyjnej klasy — destrukcyjnego shella. PII Shield działa w trybie tylko-audit (flaguje PII, nie blokuje). Dostajesz pełny ślad z niemal zerowym ryzykiem nieoczekiwanej blokady, potem zacieśniasz z widoczności, a nie zgadywania.
permissive nie egzekwuje niczego — istnieje, by obserwować zupełnie nowego agenta z zerowym ryzykiem przypadkowych blokad. Tryb obserwacji pozostaje włączony, więc każde wywołanie narzędzia jest wciąż logowane jako luka w pokryciu (widoczna w Discovered Tools). Użyj go, by poznać kształt agenta, potem przejdź na balanced lub tight.

3. Jeden konkretny przykład: zastosuj balanced, obserwuj oba strumienie

Zastosowanie poziomu to pojedyncza akcja w konsoli (Firewall → Posture) lub jedno wywołanie API. Trasa działa pod twoją sesją i wymaga Developer+.
# Configure in the console, or POST under your session token (Developer+):
POST /api/workspace/firewall/autonomy
Content-Type: application/json

{ "level": "balanced" }
Odpowiedź niesie audit_id — zachowaj go; to, co przekazujesz, by cofnąć. Po zastosowaniu baza jest na żywo przy następnym wywołaniu narzędzia. Bez ponownego wdrożenia, bez zmiany w kodzie agenta. Teraz obserwujesz obie płaszczyzny naraz:
  • Firewall → Events — każdy werdykt wywołania narzędzia (audit, odmówione wywołania destrukcyjnego shella). Zobacz Log zdarzeń.
  • Guardrails → Matches — każde trafienie polityki treści (flagi PII Shield).
Ponieważ balanced zapisuje rzeczywistą, edytowalną politykę firewalla i rzeczywisty guardrail (każdy nazwany od poziomu), możesz otworzyć którykolwiek potem i go dostroić — baza to punkt wyjścia, nie zablokowany preset.
Podejrzyj, zanim się zdecydujesz. GET /api/workspace/firewall/simulate?level=tight (Member, tylko-do-odczytu) pokazuje dokładnie, co tight by zmienił wobec twojego bieżącego stanu — nic nie jest stosowane. Uruchom to po dniu lub dwóch na balanced, by potwierdzić, że tight nie odmówi wywołań, które są częścią twojego normalnego ruchu.

4. Cofnięcie to jedno wywołanie

Każda zmiana autonomii jest odwracalna z jej migawki audytu, przywracając dokładny poprzedni stan — polityki, reguły, guardrails i ustawienia — nie generyczny reset.
# Developer+; :audit_id is the value returned when you applied the level.
POST /api/workspace/firewall/autonomy/undo/:audit_id
Dla bardzo dużej przestrzeni roboczej, której migawka przekracza limit rozmiaru logu audytu, zastosowanie wciąż się udaje, ale cofnięcie jednym kliknięciem jest niedostępne dla tej zmiany — zamiast tego ponownie stosujesz poziom, który chcesz. To rzadkie, ale warte poznania, zanim zacieśnisz zajętą produkcyjną przestrzeń roboczą.

5. Rekomendowana ścieżka

Zacznij szeroko, obserwuj, potem zacieśniaj z pozycji widoczności:
1

Zastosuj balanced

Pełny ślad audytu; odmawiany jest tylko destrukcyjny shell; PII jest flagowane. Uruchamiaj swoje agenty normalnie przez dzień lub dwa.
2

Symuluj tight

GET /api/workspace/firewall/simulate?level=tight i porównaj jego odmowy z tym, co strumień Events faktycznie pokazał. Jeśli wywołania w kształcie fetch lub destrukcyjnego shella są częścią twojego normalnego przepływu, napraw najpierw agenta.
3

Zastosuj tight

Gdy symulacja nie kryje niespodzianek, przełącz na tight. Cofnięcie jest o jedno wywołanie, jeśli produkcja się zepsuje.
4

Stroj regułami

Baza to twoja podłoga. Wykrój wyjątki lub dodaj kontrole, których nie pokrywa, regułami firewalla i nazwanymi guardrails. Przypnij konkretną politykę lub guardrail do pojedynczego klucza dla drobniejszego zakresu.

6. Role dla połączonej bazy

Kontrola autonomii obejmuje obie płaszczyzny, ale każda akcja jest bramkowana rolą.
AkcjaMinimalna rola
Symuluj poziom / zobacz Matches guardrail / zobacz Discovered ToolsMember
Zobacz Events i Runs firewallaDeveloper+
Zastosuj poziom autonomiiDeveloper+
Cofnij zmianę autonomiiDeveloper+
Cała konfiguracja działa w konsoli pod twoją sesją (/api/workspace/firewall/* i /api/guardrail/*). Tylko wywołania relay /v1/* używają klucza sk-orca-…; trasy klucza gateway to osobny zakres. Zobacz Zakres: klucze, polityki, przestrzenie robocze.

7. Po bazie: gdzie stroić każdą płaszczyznę

Baza chroni cię w pierwszych 30 minutach. Stamtąd każda płaszczyzna ma własną referencję do pracy precyzyjnej:

Przegląd Firewall

Werdykty, powierzchnie, predykaty argumentów, zatwierdzenia — płaszczyzna akcji.

Guardrails

Reguły keyword, regex, PII, llm_judge i grounding — płaszczyzna treści.

Tryb cienia

Wytocz zacieśnioną politykę firewalla w trybie tylko-audit przed egzekwowaniem.

Baza Secure Agents

Strona koncepcyjna dla kontroli autonomii i jej semantyki cofania.
Baza to podłoga, która zamyka obie płaszczyzny naraz; reguły to sposób, w jaki podnosisz sufit. Zobacz Zabezpieczanie agentów AI i stos kontrolny dla tego, jak warstwy się komponują, oraz Nadmierną sprawczość dla zagrożenia, na które ta baza odpowiada najbardziej bezpośrednio.