shell.exec, albo firewall narzędzi, który nigdy nie zauważa numeru karty
kredytowej wychodzącego w promptcie.
Najszybszy sposób na kompletną bazę bezpieczeństwa agenta to ustawienie
obu płaszczyzn naraz. Kontrola autonomii OrcaRouter — baza Secure Agents —
robi dokładnie to: pojedynczy przełącznik na poziomie przestrzeni roboczej,
który zapisuje politykę firewalla i
guardrail razem, w jednej transakcji, z cofnięciem
jednym kliknięciem. Nie piszesz reguły, by być chroniony; wybierasz poziom i
stroisz później.
Te dwie płaszczyzny są komplementarne, nie redundantne. Guardrails
prześwietlają tekst promptu/odpowiedzi (PII, sekrety, intencja jailbreaka i
injection); firewall zarządza akcjami, które agent podejmuje (które
narzędzia, wywołania MCP i hosty). Każda sama zostawia lukę, którą druga
zamyka — zobacz
Guardrails vs. Firewall.
1. Dlaczego jedna baza bije dwa półśrodki
Prawdziwe uruchomienie agenta przekracza obie płaszczyzny w pojedynczym żądaniu. Model odczytuje prompt (tekst), decyduje wywołaćdb.query (akcja),
a wynik narzędzia wraca do następnej tury (znów tekst). Zabezpieczenie tylko
jednej płaszczyzny zostawia drugą niestrzeżoną:
Tylko firewall
Odmawiasz destrukcyjnego shella, ale prompt wciąż niesie SSN klienta
prosto do modelu — a argument narzędzia wciąż wycieka klucz API.
Tylko guardrails
Maskujesz PII w promptach, ale agent wciąż woła
rm -rf, sięga do
endpointu metadanych chmury lub pętli na rozbieganym narzędziu.2. Baza bezpieczeństwa agenta: trzy poziomy
Każdy poziom pokrywa te same dwie płaszczyzny. Wybierz jeden; to twoja podłoga, a precyzję dodajesz regułami później.| Poziom | Firewall | Guardrails | Tryb obserwacji |
|---|---|---|---|
tight | Default-deny; destrukcyjny shell + narzędzia w kształcie fetch odmówione | PII Shield + Secrets Blocker egzekwowane | Wyłączony |
balanced | Default-audit; destrukcyjny shell odmówiony | PII Shield tylko-audit (flaguje PII) | Wyłączony |
permissive | Brak egzekwującej polityki | Brak | Włączony — loguje każde wywołanie jako lukę |
Czego `tight` odmawia na płaszczyźnie akcji
Czego `tight` odmawia na płaszczyźnie akcji
tight stempluje werdykt domyślny polityki firewalla na deny, potem
warstwuje reguły deny dla nazw narzędzi shell/exec, które niosą
destrukcyjne polecenia — shell.*, bash, cmd, powershell, exec —
oraz dla nazw narzędzi w kształcie fetch, które niosą SSRF —
http_fetch, web_search, fetch_url, request (i ich warianty MCP w
przestrzeni <server>.*). Odmawia tych nazw narzędzi; nie dostarcza
reguły egress CIDR ani metadanych chmury. Jeśli chcesz odmawiać
169.254.169.254 lub zakresów RFC-1918 po celu, napisz własną regułę
egress — zobacz Kontrola egress.Co `tight` egzekwuje na płaszczyźnie treści
Co `tight` egzekwuje na płaszczyźnie treści
Zarówno guardrail PII Shield, jak i Secrets Blocker są aktywne i
egzekwujące. PII Shield maskuje PII w żądaniu, zanim dotrze do modelu;
Secrets Blocker wychwytuje poświadczenia w żądaniu. Sekrety w argumentach
narzędzi są wychwytywane przez ten guardrail w żądaniu — firewall nie
usuwa ich domyślnie.
Dlaczego `balanced` to rekomendowany start
Dlaczego `balanced` to rekomendowany start
balanced audytuje wszystko (werdykt domyślny audit), więc widzisz
prawdziwe zachowanie swojego agenta, wciąż odmawiając pojedynczej
najbardziej destrukcyjnej klasy — destrukcyjnego shella. PII Shield działa
w trybie tylko-audit (flaguje PII, nie blokuje). Dostajesz pełny ślad z
niemal zerowym ryzykiem nieoczekiwanej blokady, potem zacieśniasz z
widoczności, a nie zgadywania.3. Jeden konkretny przykład: zastosuj balanced, obserwuj oba strumienie
Zastosowanie poziomu to pojedyncza akcja w konsoli (Firewall → Posture) lub
jedno wywołanie API. Trasa działa pod twoją sesją i wymaga Developer+.
audit_id — zachowaj go; to, co przekazujesz, by cofnąć.
Po zastosowaniu baza jest na żywo przy następnym wywołaniu narzędzia. Bez
ponownego wdrożenia, bez zmiany w kodzie agenta. Teraz obserwujesz obie
płaszczyzny naraz:
- Firewall → Events — każdy werdykt wywołania narzędzia (
audit, odmówione wywołania destrukcyjnego shella). Zobacz Log zdarzeń. - Guardrails → Matches — każde trafienie polityki treści (flagi PII Shield).
balanced zapisuje rzeczywistą, edytowalną politykę firewalla i
rzeczywisty guardrail (każdy nazwany od poziomu), możesz otworzyć którykolwiek
potem i go dostroić — baza to punkt wyjścia, nie zablokowany preset.
4. Cofnięcie to jedno wywołanie
Każda zmiana autonomii jest odwracalna z jej migawki audytu, przywracając dokładny poprzedni stan — polityki, reguły, guardrails i ustawienia — nie generyczny reset.5. Rekomendowana ścieżka
Zacznij szeroko, obserwuj, potem zacieśniaj z pozycji widoczności:Zastosuj balanced
Pełny ślad audytu; odmawiany jest tylko destrukcyjny shell; PII jest
flagowane. Uruchamiaj swoje agenty normalnie przez dzień lub dwa.
Symuluj tight
GET /api/workspace/firewall/simulate?level=tight i porównaj jego odmowy
z tym, co strumień Events faktycznie pokazał. Jeśli wywołania w kształcie
fetch lub destrukcyjnego shella są częścią twojego normalnego przepływu,
napraw najpierw agenta.Zastosuj tight
Gdy symulacja nie kryje niespodzianek, przełącz na
tight. Cofnięcie jest
o jedno wywołanie, jeśli produkcja się zepsuje.Stroj regułami
Baza to twoja podłoga. Wykrój wyjątki lub dodaj kontrole, których nie
pokrywa, regułami firewalla i nazwanymi
guardrails. Przypnij konkretną politykę lub
guardrail do pojedynczego klucza dla drobniejszego zakresu.
6. Role dla połączonej bazy
Kontrola autonomii obejmuje obie płaszczyzny, ale każda akcja jest bramkowana rolą.| Akcja | Minimalna rola |
|---|---|
| Symuluj poziom / zobacz Matches guardrail / zobacz Discovered Tools | Member |
| Zobacz Events i Runs firewalla | Developer+ |
| Zastosuj poziom autonomii | Developer+ |
| Cofnij zmianę autonomii | Developer+ |
/api/workspace/firewall/* i /api/guardrail/*). Tylko wywołania relay
/v1/* używają klucza sk-orca-…; trasy klucza gateway to osobny zakres.
Zobacz Zakres: klucze, polityki, przestrzenie robocze.
7. Po bazie: gdzie stroić każdą płaszczyznę
Baza chroni cię w pierwszych 30 minutach. Stamtąd każda płaszczyzna ma własną referencję do pracy precyzyjnej:Przegląd Firewall
Werdykty, powierzchnie, predykaty argumentów, zatwierdzenia — płaszczyzna
akcji.
Guardrails
Reguły keyword, regex, PII, llm_judge i grounding — płaszczyzna treści.
Tryb cienia
Wytocz zacieśnioną politykę firewalla w trybie tylko-audit przed
egzekwowaniem.
Baza Secure Agents
Strona koncepcyjna dla kontroli autonomii i jej semantyki cofania.
