https://api.orcarouter.ai/v1/... esattamente come prima.
Nuovo qui? Applica prima la
baseline
balanced e
osserva cosa fa il tuo agent per un giorno.
Questa pagina è il passo successivo: trasformare l’osservazione in applicazione
per un agent che non puoi fare da babysitter.1. La ricetta per un agent autonomo sicuro
Un agent autonomo sicuro ha bisogno di quattro cose che un chatbot non ha:Un tetto di costo rigido
Una regola
cap_cost nega l’esecuzione una volta che la sua spesa
accumulata supera il tuo cap — l’interruttore di sicurezza per un loop che
non si ferma.Rilevamento dei picchi
Il rilevamento delle anomalie apprende la forma ora-della-settimana normale
dell’agent e segnala picchi di rate e costo che sfuggono alle regole
statiche.
Approvazione sulle chiamate pericolose
Un verdetto
pending_approval mette in attesa per un umano le chiamate a
tool distruttive o irreversibili, anziché fidarsi che l’agent sia prudente.Una chiave che scade
Dai scope alla chiave dell’agent con una scadenza e un tetto di credito così
un esperimento dimenticato non può girare — o spendere — per sempre.
2. Limita il costo di ogni esecuzione
La prima cosa che un loop fuori controllo fa saltare è il tuo budget. Una regolacap_cost è un tetto di costo a pre-controllo stretto: quando corrisponde, il
gateway stima il costo della richiesta e nega prima del dispatch una volta
che la spesa accumulata dell’esecuzione supererebbe il cap — così una chiamata
fuori budget non raggiunge mai il provider.
Il cap è con scope sull’esecuzione. Il gateway somma la spesa precedente su
tutta l’esecuzione dell’agent, così un’esecuzione lunga che ha già bruciato la
maggior parte del suo budget viene negata anche quando la prossima chiamata
individuale è economica. È ciò che lo rende un interruttore di sicurezza
piuttosto che un limite per-richiesta.
Aggiungi una regola wildcard alla tua policy del firewall:
cap_cost_cents è in centesimi USD). Il
verdetto si risolve in allow mentre è sotto budget e deny una volta che la
stima lo supererebbe. La maggior parte dei template integrati del firewall
(Coding, Support, RAG, Data, DevOps, Browser) fornisce un cap di costo per
esecuzione esattamente come questo — applicane uno e modifica il cap.
3. Rileva i picchi rispetto a una baseline appresa
Un cap ferma la catastrofe; il rilevamento delle anomalie coglie lo strano prima che lo diventi. Il Firewall apprende la forma normale d’uso dei tool di ciascun workspace — una media mobile a 14 giorni raggruppata per ora-della-settimana, così il traffico del martedì-14:00 viene confrontato con la storia del martedì-14:00, non con una media giornaliera piatta — e fa emergere le deviazioni su un feed leggibile dal viewer:rate_spike — un tool che scatta molto sopra la sua norma
rate_spike — un tool che scatta molto sopra la sua norma
Il volume di chiamate per tool valutato rispetto alla baseline appresa. “143
chiamate
db.query in un’ora contro una baseline di 8” emerge anche quando
ogni chiamata individuale è consentita.burn_spike — il costo che sale oltre la spesa appresa
burn_spike — il costo che sale oltre la spesa appresa
La stessa baseline, applicata alla spesa anziché al conteggio — un’esecuzione
che improvvisamente brucia molto più di quanto faccia di solito quest’ora.
retry_loop — un agent che martella un tool che fallisce
retry_loop — un agent che martella un tool che fallisce
La firma di un agent autonomo bloccato a ritentare la stessa chiamata rotta.
Vedi agenzia eccessiva.
novel_path — una transizione tra tool mai vista prima
novel_path — una transizione tra tool mai vista prima
Un salto da tool a tool che questo workspace non ha mai fatto — la forma di
un agent che va da qualche parte di nuovo.
cap_cost così un picco che è anche fuori budget viene fermato,
non solo notato.
4. Metti in attesa di un umano le chiamate pericolose
Non puoi esaminare ogni chiamata che un agent autonomo fa — ma puoi farlo fermare e chiedere prima di quella manciata che conta. Un verdettopending_approval mette in attesa una chiamata a tool fuori banda:
- L’agent emette, diciamo, una chiamata
payments.transfer. La regola corrisponde e il motore restituisce HTTP 400firewall_approval_pendingcon un id di approvazione — la chiamata non raggiunge mai il tool. - Un revisore la risolve dalla console (Developer+), o il tuo sistema la
risolve tramite un webhook callback firmato con HMAC verso
POST /api/v1/firewall/approvals/:id/callback. - L’agent fa polling su
GET /api/v1/firewall/approvals/:id; una volta approvata ri-invia la chiamata originale con un header monousoX-OrcaRouter-Firewall-Approval, e il gateway la lascia passare quella sola volta.
5. Dai all’agent una chiave che scade
Il controllo che sopravvive a ogni policy è la chiave stessa. Un agent autonomo dovrebbe ricevere una chiave con scope, non la tua di default. Imposta questi campi quando la coni (console → chiavi, o la token API):| Campo | Impostalo a | Perché |
|---|---|---|
expired_time | un timestamp Unix | L’esperimento finisce; la chiave muore con esso. -1 significa mai — non usarlo qui. |
credit_limit_usd | un tetto in dollari | Un cap di spesa sulla chiave indipendente dal cap dell’esecuzione. 0 significa illimitato. |
firewall_policy_id | la tua policy sopra | Collega le regole cap_cost + approvazione a questa chiave. |
allow_ips | gli IP di egress dell’agent | Una chiave trapelata è inutile da qualsiasi altro posto. |
environment, così la chiave — e tutto ciò che fa in
Events e Matches — è attribuibile a questo agent. Una chiave che scade, con cap
di credito e fissata sugli IP è l’ultima linea: anche se ogni policy fosse in
qualche modo bypassata, il blast radius è limitato dal tempo e dai dollari.
La configurazione della chiave è un’azione di console / token-API ed è
role-gated. Leggere il plaintext di una chiave di firewall-gateway richiede
Admin+.
6. Mettilo insieme
Un agent autonomo hardenizzato finisce con una policy del firewall e una chiave con scope:| Layer | Controllo | Coglie |
|---|---|---|
| Budget | Regola cap_cost, con scope sull’esecuzione | Loop fuori controllo, denial-of-wallet |
| Comportamento | Feed delle anomalie (rate / burn / retry / novel) | Lo strano-ma-consentito |
| Fiducia | pending_approval sui tool distruttivi | Azioni irreversibili |
| Scope | Chiave che scade, con cap di credito, fissata sugli IP | Chiavi dimenticate o trapelate |
7. Prossimi passi
Hardening di un agent MCP
Governa un agent che raggiunge i tool attraverso MCP server.
Fermare l'esfiltrazione
Regole di egress per un agent che recupera i propri URL.
Modalità di applicazione
Observe → shadow → enforce, il rollout sicuro.
Regole del firewall
Il linguaggio di matching dietro ogni regola qui sopra.
