cap_cost to
bezpiecznik na to: piszesz limit w centach per uruchomienie raz, a brama
odmawia następnego wywołania narzędzia w momencie, gdy zakumulowane wydatki
uruchomienia go przekroczą — zanim to wywołanie dotrze do modelu lub
narzędzia.
To kontrola kosztu agenta AI egzekwowana w bramie, nie doczepiona do
twojej pętli agenta. Jak każdy werdykt firewalla,
reguła cap_cost żyje w polityce przestrzeni roboczej, przypina się do klucza
i wchodzi w życie przy następnym wywołaniu bez ponownego wdrożenia.
1. Bezpiecznik wydatków per uruchomienie
cap_cost to werdykt reguły, który piszesz z jednym dodatkowym polem —
cap_cost_cents, limitem wydatków uruchomienia w centach USD. Gdy reguła
dopasuje wywołanie narzędzia, silnik porównuje zakumulowane wydatki
uruchomienia agenta z tym limitem:
- Poniżej limitu → wywołanie jest dozwolone; ewaluacja kontynuuje.
- Powyżej limitu → wywołanie jest odmówione, z powodem nazywającym sumę uruchomienia względem limitu. To terminalny wynik bezpiecznika — uruchomienie nie może wystawić kolejnego zarządzanego wywołania aż do świeżego uruchomienia.
Zakres uruchomienia, z fallbackiem per żądanie. Gdy żądanie niesie id
uruchomienia agenta, limit dotyczy zakumulowanych wydatków uruchomienia.
Wywołanie bez powiązania z uruchomieniem (np. goła dyspozycja MCP bez
przekazanej sesji) spada zamiast tego do porównania per żądanie. Tak czy
inaczej, bezpiecznik wyzwala się przed dyspozycją wywołania ponad budżet.
2. Jeden konkretny przykład
Ogranicz każde uruchomienie na kluczu do $5.00 zakumulowanych wydatków. Pojedyncza reguła z symbolem wieloznacznym to robi —cap_cost_cents to 500
(centów):
firewall_policy_id lub uczyń ją domyślną dla przestrzeni roboczej, a każde
uruchomienie, które ten klucz napędza, jest teraz ograniczone.
Możesz ograniczyć limit ściślej niż „każde narzędzie”. Zacieśnij
glob nazwy narzędzia, aby tylko droga
rodzina wywołań liczyła się do bezpiecznika — np. cap_cost na *.search,
aby ograniczyć rozgałęzienie wyszukiwania w sieci, zostawiając tanie lokalne
narzędzia bez pomiaru.
3. Gdzie odpala — i gdzie nie może
cap_cost ma sens tylko przed dyspozycją wywołania — to jeden punkt,
gdzie zatrzymanie wywołania wciąż zapobiega wydatkowi. Więc jest na żywo na
dwóch powierzchniach przed-dyspozycją i
odrzucany na tych po-dyspozycji:
| Powierzchnia | cap_cost? |
|---|---|
inbound (ogłoszone narzędzia) | Egzekwowany. |
mcp (dyspozycja tools/call) | Egzekwowany. |
response (wywołania wyemitowane przez model) | Odrzucany przy zapisie — nic nie zostało do zatrzymania. |
egress (wychodzący cel) | Odrzucany przy zapisie — nic nie zostało do zatrzymania. |
cap_cost przypięta do response lub egress jest odmawiana w
czasie zapisu, więc reguła nigdy nie może wyświetlać się jako na żywo, a
jednocześnie być niezdolną do odmowy. Zostaw etap pusty, aby pokryć obie
powierzchnie przed-dyspozycją, lub przypnij ją do inbound / mcp.
4. Jak wygląda bezpiecznik, gdy się wyzwala
Wywołanie ponad budżet to normalne deny firewalla:- Na
inboundrelay zwraca HTTP 400 z kodem błędufirewall_blocked. Block odpala przed wywołaniem modelu nadrzędnego, więc nie kosztuje żadnych tokenów modelu i jest oznaczony skip-retry — ponowne uruchomienie tego samego wywołania po prostu znów by wyzwoliło bezpiecznik. - Na
mcpwraca jako błąd narzędzia, więc model widzi odrzucenie i może zatrzymać się lub zapytać użytkownika, zamiast się wysypać.
cap_cost: estimated run cost $5.40 exceeds cap $5.00, więc operator czytający strumień zdarzeń
widzi dokładnie, dlaczego bezpiecznik się wyzwolił.
Zdarzenia nigdy nie niosą dosłownego
cap_cost. Piszesz werdykt jako
cap_cost, ale silnik rozwiązuje go do konkretnego allow lub deny,
zanim zdarzenie zostanie zarejestrowane. Strumień pokazuje allow/deny, które
agent faktycznie zobaczył — limit kosztu uruchomienia to powód, nie
etykieta werdyktu. To odzwierciedla sposób, w jaki
werdykty się rozwiązują.5. Wytocz to bezpiecznie
Ponieważ wyzwolony bezpiecznik twardo zatrzymuje uruchomienie, zwaliduj go, zanim wyegzekwujesz. Włącz tryb cienia na polityce: regułacap_cost wciąż ewaluuje, a przyszłe deny jest degradowane
do audit, poprzedzone przedrostkiem [shadow] would …. Obserwuj strumień
zdarzeń, aby potwierdzić, że limit wyzwala się tam, gdzie oczekujesz — i
tylko tam, gdzie oczekujesz — potem wyłącz tryb cienia, by zacząć egzekwować.
Możesz też zrobić dry-run polityki wobec przykładowego wywołania w
zakładce Test (piaskownica Developer+),
aby zobaczyć rozwiązany werdykt i dopasowaną regułę, zanim cokolwiek na niej
polegnie.
6. Jak pasuje do reszty firewalla
cap_cost to jeden werdykt z sześciu. Łączy się naturalnie z innymi
kontrolami na tej samej polityce:
Werdykty
Pełny zestaw — allow, audit, deny, sanitize, pending_approval i jak
cap_cost się rozwiązuje.
Blokuj niebezpieczne narzędzia
Odmów destrukcyjnego shella, usunięć i innych wysokoryzykownych wywołań
wprost.
Referencja reguł
Kompletny język dopasowania — globy, klauzule argumentów, sekwencje.
Wykrywanie anomalii
Skoki kosztu flagowane wobec wyuczonej bazowej linii godziny-tygodnia.
cap_cost do twardego zatrzymania,
anomalii do wczesnego sygnału.
Limity kwot na samym kluczu (
credit_limit_usd) ograniczają całkowite
wydatki we wszystkich uruchomieniach; cap_cost ogranicza pojedyncze
uruchomienie. Składają się — rozbiegana pętla wyzwala bezpiecznik per
uruchomienie długo przed wyczerpaniem kredytu klucza na całe życie. Zobacz
zakres: klucze, polityki, przestrzenie robocze.Dokąd dalej
Utwórz i przypnij politykę
Stwórz politykę, wybierz werdykt domyślny, powiąż ją z kluczem.
Tryb cienia
Zmierz limit, zanim zmieni ruch.
