https://api.orcarouter.ai/v1/... dokładnie jak wcześniej.
Nowy tutaj? Zastosuj najpierw
bazę
balanced i
obserwuj, co robi twój agent przez dzień.
Ta strona to następny krok: zamiana obserwacji w egzekwowanie dla agenta,
którego nie możesz pilnować.1. Przepis na bezpiecznego agenta autonomicznego
Bezpieczny agent autonomiczny potrzebuje czterech rzeczy, których chatbot nie potrzebuje:Twardy pułap kosztu
Reguła
cap_cost odmawia uruchomienia, gdy jego zakumulowane wydatki
przekroczą twój limit — bezpiecznik dla pętli, która nie chce się
zatrzymać.Wykrywanie skoków
Wykrywanie anomalii uczy się normalnego kształtu godziny-tygodnia agenta
i flaguje skoki tempa i kosztu, które wymykają się statycznym regułom.
Zatwierdzenie na niebezpiecznych wywołaniach
Werdykt
pending_approval wstrzymuje destrukcyjne lub nieodwracalne
wywołania narzędzi dla człowieka, zamiast ufać, że agent będzie ostrożny.Klucz, który wygasa
Ogranicz klucz agenta wygaśnięciem i pułapem kredytu, aby zapomniany
eksperyment nie mógł działać — ani wydawać — w nieskończoność.
2. Ogranicz koszt każdego uruchomienia
Pierwszą rzeczą, którą rozbiegana pętla wysadza, jest twój budżet. Regułacap_cost to ścisły pułap kosztu przed-sprawdzenia: gdy pasuje, brama
szacuje koszt żądania i odmawia przed dyspozycją, gdy zakumulowane
wydatki uruchomienia przekroczyłyby limit — więc wywołanie ponad budżet
nigdy nie dociera do dostawcy.
Limit jest w zakresie uruchomienia. Brama sumuje wcześniejsze wydatki
przez całe uruchomienie agenta, więc długie uruchomienie, które już spaliło
większość budżetu, jest odmawiane, nawet gdy następne pojedyncze wywołanie
jest tanie. To właśnie czyni go bezpiecznikiem, a nie limitem per żądanie.
Dodaj jedną regułę z symbolem wieloznacznym do swojej polityki firewalla:
cap_cost_cents jest w centach USD).
Werdykt rozwiązuje się do allow, gdy poniżej budżetu, i deny, gdy
oszacowanie by go przekroczyło. Większość wbudowanych szablonów firewalla
(Coding, Support, RAG, Data, DevOps, Browser) dostarcza limit kosztu per
uruchomienie dokładnie taki — zastosuj jeden i edytuj limit.
3. Wykrywaj skoki wobec wyuczonej bazowej linii
Limit zatrzymuje katastrofę; wykrywanie anomalii wychwytuje dziwne, zanim stanie się jedną. Firewall uczy się normalnego kształtu użycia narzędzi każdej przestrzeni roboczej — 14-dniowa średnia krocząca pogrupowana po godzinie-tygodnia, więc ruch wtorek-14:00 jest porównywany z historią wtorek-14:00, a nie z płaską dzienną średnią — i wynosi odchylenia na strumień czytelny dla obserwującego:rate_spike — narzędzie odpalające daleko ponad swoją normę
rate_spike — narzędzie odpalające daleko ponad swoją normę
Wolumen wywołań per narzędzie oceniany wobec wyuczonej bazowej linii.
„143 wywołania
db.query w godzinę wobec bazowej linii 8” wynurza się
nawet, gdy każde pojedyncze wywołanie jest dozwolone.burn_spike — koszt wspinający się ponad wyuczone wydatki
burn_spike — koszt wspinający się ponad wyuczone wydatki
Ta sama bazowa linia, zastosowana do wydatków zamiast liczby — uruchomienie,
które nagle spala znacznie więcej, niż ta godzina zwykle robi.
retry_loop — agent walący w zawodzące narzędzie
retry_loop — agent walący w zawodzące narzędzie
Sygnatura autonomicznego agenta utkniętego na ponawianiu tego samego
zepsutego wywołania. Zobacz
excessive-agency.
novel_path — przejście narzędzia nigdy wcześniej niewidziane
novel_path — przejście narzędzia nigdy wcześniej niewidziane
Przeskok narzędzie-do-narzędzia, którego ta przestrzeń robocza nigdy nie
wykonała — kształt agenta idącego gdzieś nowego.
cap_cost, aby skok, który jest też ponad budżetem, był zatrzymany, a nie
tylko zauważony.
4. Wstrzymaj niebezpieczne wywołania dla człowieka
Nie możesz przejrzeć każdego wywołania, które robi agent autonomiczny — ale możesz sprawić, by zatrzymał się i zapytał przed tą garstką, która ma znaczenie. Werdyktpending_approval wstrzymuje wywołanie narzędzia poza
pasmem:
- Agent wystawia, powiedzmy, wywołanie
payments.transfer. Reguła pasuje, a silnik zwraca HTTP 400firewall_approval_pendingz id zatwierdzenia — wywołanie nigdy nie dociera do narzędzia. - Recenzent rozstrzyga je z konsoli (Developer+) lub twój własny system
rozstrzyga je przez podpisany HMAC webhook callback do
POST /api/v1/firewall/approvals/:id/callback. - Agent odpytuje
GET /api/v1/firewall/approvals/:id; po zatwierdzeniu ponownie wysyła oryginalne wywołanie z jednorazowym nagłówkiemX-OrcaRouter-Firewall-Approval, a brama przepuszcza je ten jeden raz.
5. Daj agentowi klucz, który wygasa
Kontrola, która przeżywa każdą politykę, to sam klucz. Agent autonomiczny powinien dostać klucz o ograniczonym zakresie, nie twój domyślny. Ustaw te pola, gdy go wybijasz (konsola → klucze lub token API):| Pole | Ustaw na | Dlaczego |
|---|---|---|
expired_time | znacznik czasu Unix | Eksperyment się kończy; klucz umiera z nim. -1 oznacza nigdy — nie używaj tego tutaj. |
credit_limit_usd | pułap w dolarach | Limit wydatków na kluczu niezależny od limitu uruchomienia. 0 oznacza bez limitu. |
firewall_policy_id | twoja polityka powyżej | Wiąże reguły cap_cost + zatwierdzenia z tym kluczem. |
allow_ips | IP egress agenta | Wyciekły klucz jest bezużyteczny skądkolwiek indziej. |
environment, aby klucz — i wszystko, co robi w Events i
Matches — był atrybuowalny do tego agenta. Wygasający, ograniczony kredytem,
przypięty do IP klucz to ostatnia linia: nawet gdyby każda polityka została
jakoś obejść, promień rażenia jest ograniczony czasem i dolarami.
Konfiguracja klucza to akcja konsoli / token-API i jest bramkowana rolami.
Odczyt plaintextu klucza firewall-gateway wymaga Admin+.
6. Złóż to razem
Utwardzony agent autonomiczny kończy z jedną polityką firewalla i jednym kluczem o ograniczonym zakresie:| Warstwa | Kontrola | Wychwytuje |
|---|---|---|
| Budżet | Reguła cap_cost, w zakresie uruchomienia | Rozbiegane pętle, denial-of-wallet |
| Zachowanie | Strumień anomalii (rate / burn / retry / novel) | Dziwne-ale-dozwolone |
| Zaufanie | pending_approval na destrukcyjnych narzędziach | Nieodwracalne akcje |
| Zakres | Wygasający, ograniczony kredytem, przypięty do IP klucz | Zapomniane lub wyciekłe klucze |
7. Następne kroki
Utwardź agenta MCP
Zarządzaj agentem, który sięga po narzędzia przez serwery MCP.
Zatrzymaj eksfiltrację
Reguły egress dla agenta, który sam pobiera URL-e.
Tryby egzekwowania
Obserwuj → cień → egzekwuj, bezpieczne wdrożenie.
Reguły firewalla
Język dopasowania stojący za każdą regułą powyżej.
