https://api.orcarouter.ai/v1/...
esattamente come prima.
Nuovo al modello? Leggi Modalità di applicazione
per cosa fa meccanicamente ciascuna postura, e la
baseline Secure Agents per cosa
imposta ciascun livello di autonomia. Questa pagina è la sequenza — l’ordine in
cui attivi gli interruttori.
1. Il rollout di sicurezza AI in tre mosse
L’intero rollout baratta autonomia per sicurezza in tre passi, ciascuno verificato contro il traffico live prima del successivo:Observe
Consenti tutto, logga tutto. Le chiamate a tool non coperte atterrano in
Discovered Tools; le regole
flag dei guardrail registrano match senza
cambiare il traffico. Apprendi la forma reale del tuo agent.Shadow
Una policy reale valuta ogni chiamata, ma ogni verdetto applicativo viene
declassato a
audit e loggato [shadow] would …. Vedi esattamente cosa
verrebbe bloccato — con nulla effettivamente bloccato.Enforce
Shadow disattivata.
deny blocca, mask redige, pending_approval mette in
attesa. L’autonomia va da ampia (balanced) a stretta (tight), e il tuo
agent è governato.2. Mossa uno — observe (autonomia = permissive)
Parti il più ampio possibile. Applica il livello di autonomiapermissive da
Firewall → Posture (Developer+) — o
POST /api/workspace/firewall/autonomy. Abilita l’observe mode del workspace
e non lascia alcuna policy applicativa, così ogni chiamata è consentita e ogni
chiamata non coperta è loggata come un gap di copertura.
- Firewall → Discovered Tools (Member) — ogni tool che il tuo agent chiama, marcato covered o gap. Questo è l’input per le tue regole: stai per scrivere policy per traffico che accade davvero, non per ipotesi.
- Guardrails → Matches (Member) — se hai aggiunto regole con azione
flag, ogni match che registrano, senza toccare la richiesta.
3. Mossa due — shadow (una policy reale, zero blocking)
Ora scrivi la policy che vuoi davvero — glob di tool, clausole sugli argomenti, liste egress, un tettocap_cost — e attiva la shadow_mode prima di
collegarla. (Costruisci le regole dalle regole del firewall;
il modello di policy completo è nel riferimento Firewall.)
shadow_mode: true, quel deny e quel cap_cost sono entrambi
declassati a audit al momento della valutazione — il motore calcola il
verdetto reale, lo logga prefissato [shadow] would …, e lascia passare la
chiamata. Collega la policy alle chiavi di cui stai facendo il rollout (imposta
firewall_policy_id sulla chiave) o rendila il default del workspace.
Poi leggi Firewall → Events / Runs (Developer+) filtrato al prefisso
[shadow] e conferma entrambi i lati:
Scatta dove intendevi
Scatta dove intendevi
Ogni chiamata
shell.exec mostra [shadow] would deny. Ogni esecuzione che
supera il tuo cap mostra [shadow] would cap_cost. La policy vede il traffico
per cui l’hai costruita.NON scatta dove non volevi
NON scatta dove non volevi
Nessun tool legittimo compare con un verdetto di avrebbe-bloccato. Questo è il
controllo dei falsi positivi — la ragione per cui la shadow esiste. Se un tool
di cui hai bisogno è segnalato, correggi la regola e ri-osserva prima di
applicare mai.
4. Mossa tre — enforce (autonomia balanced, poi tight)
Quando il log di shadow sembra giusto, applica in due fasi, non una. Non saltare dritto al default-deny. Prima,balanced. Questa è la prima postura applicativa consigliata: il
verdetto di default del firewall è audit, ma le azioni più distruttive (come la
shell distruttiva) sono negate, e il guardrail PII Shield gira in
solo-audit — segnala le PII senza ancora mascherarle. Ora stai bloccando la
cosa peggiore mentre osservi ancora il resto.
Disattiva la shadow_mode sulla tua policy nella stessa mossa così i suoi
verdetti deny / cap_cost vanno live accanto alla baseline.
[shadow]. Una chiamata a tool negata restituisce HTTP 400
firewall_blocked; è skip-retry e non costa token del modello.
Poi, tight. Una volta che balanced è silenzioso, vai al default-deny. Il
livello tight nega per default, nega la shell distruttiva e l’egress SSRF,
e applica PII Shield + Secrets Blocker — le PII sono mascherate sulla
richiesta prima che il modello la veda, e i segreti nelle tue richieste sono
bloccati. Un prompt bloccato restituisce HTTP 400 guardrail_blocked, non
costa alcuna quota, ed è skip-retry.
| Fase | Firewall (azioni) | Guardrails (testo) | Cosa stai dimostrando |
|---|---|---|---|
permissive | Observe; nulla bloccato | Solo flag | La forma del traffico reale |
balanced | Audit di default; shell distruttiva negata | PII segnalate | Il caso peggiore è fermato |
tight | Default-deny; shell + tool a forma di fetch (SSRF) negati | PII mascherate, segreti bloccati | Zero-trust pieno |
Avvertenza streaming per le PII. Sotto
tight, il PII Shield maschera le PII
sulla richiesta prima che il modello la veda — questo è attivo. Il masking
sul lato output di una risposta in streaming non è ancora attivo; un block di
output è applicato in streaming (lo scanner taglia lo stream). Se dipendi dal
redigere l’output del modello, verifica la tua combinazione stage/stream nel tab
Test del guardrail prima. Vedi Guardrails.5. La via di fuga — undo a un clic
Ogni modifica di autonomia è un’unica transazione che fa snapshot della tua postura precedente, così puoi tornare dritto indietro da Firewall → Posture (oPOST /api/workspace/firewall/autonomy/undo/:audit_id). Puoi anche
semplicemente ri-applicare un livello più morbido — riporta tight a balanced,
o balanced a permissive — in qualsiasi momento.
6. Da dove vengono i verdetti di ogni mossa
Il rollout non blocca mai qualcosa che non hai chiesto, perché ogni postura mappa su un meccanismo esplicito e osservabile:| Postura | Meccanismo | Esito |
|---|---|---|
| Observe | Workspace firewall_observe_mode on + guardrail flag | Allow + log dei gap / match |
| Shadow | shadow_mode per-policy | Verdetto reale calcolato, declassato ad audit, loggato [shadow] would … |
| Enforce | shadow_mode off + autonomia tight/balanced | deny / mask / cap_cost vanno live |
audit, l’azione flag e
shadow_mode — sono interruttori distinti, documentati fianco a fianco in
Modalità di applicazione.
7. Prossimi passi
Modalità di applicazione
La mappa dei meccanismi dietro observe, shadow ed enforce.
Baseline Secure Agents
Cosa imposta ogni livello di autonomia, e come simularlo prima.
Domare un agent autonomo
Il passo successivo una volta applicato: cap di costo, rilevamento delle
anomalie e approvazioni.
Agent Firewall
Policy, regole, verdetti, shadow mode e il gateway MCP per intero.
