Perché gli agent AI hanno bisogno del zero trust

Un agent non è una richiesta che hai interamente scritto tu. Legge pagine web, processa documenti ed esegue chiamate a tool basandosi su ciò che quelle fonti gli dicono. Ognuna di quelle fonti può contenere istruzioni — e il tuo agent, agendo in buona fede su contenuti iniettati, diventa il proxy dell’attaccante. Fidati dell’azione per i suoi meriti. Non per la sua origine. Questa è la premessa del zero trust per gli agent AI. Questa pagina spiega il modello di threat e mappa ciascun principio sul controllo di OrcaRouter che lo applica. Per un quick start o una configurazione pratica, vedi i link in fondo.

1. Perché “mi fido del mio agent” è il modello sbagliato

La sicurezza perimetrale tradizionale si fida in base a chi ha emesso una richiesta. Una volta che un’entità è autenticata, le sue azioni ereditano quella fiducia. Per gli agent AI, questo si rompe immediatamente:

Il tuo agent legge una pagina di prodotto per rispondere a una domanda dell’utente. La pagina contiene . L’agent la vede come un’istruzione — non come contenuto non attendibile.
Il tuo agent processa un documento recuperato e chiama db.query con argomenti dettati dal documento.
Il tuo agent recupera un URL restituito dal risultato di un tool. L’URL risolve a un servizio interno.

In ogni caso, l’azione è stata emessa dal tuo agent — autenticato, legittimo, autorizzato. E in ogni caso, l’azione non era quella che intendevi. Questo è il problema del confused deputy: l’agent ha autorità ambientale che non ha guadagnato per questo compito, e un attaccante sfrutta quell’autorità controllando ciò che l’agent legge. Il trust basato sull’identità si rompe perché l’agent è il chiamante fidato. Zero trust significa verificare l’azione, non l’agent.

2. Perché la sicurezza a livello di prompt da sola è insufficiente

Un filtro di contenuto che legge prompt e risposte non ha visibilità su:

Chiamate a tool — quale nome di funzione, quali argomenti, quali effetti collaterali.
Egress — quale destinazione di rete contiene il report di un tool.
Capability auto-installate — MCP server e skill che l’agent ha caricato a runtime che non hai mai esaminato.
Costo — un loop incontrollato che chiama un tool costoso 800 volte in 90 secondi.

La sicurezza del prompt è stata progettata per la chat: testo in entrata, testo in uscita, un umano lo legge. Gli agent rompono ognuna di quelle assunzioni. Proteggerli richiede un piano di controllo che veda le azioni, non solo le parole — uno che si trovi sul percorso di ogni chiamata a tool, indipendentemente da quale modello l’ha emessa o come la capability ci è arrivata.

3. I quattro principi zero-trust, mappati su OrcaRouter

Verifica ogni richiesta — non il chiamante

Il zero trust respinge l’idea di un perimetro sicuro. Ogni chiamata è ispezionata sul suo contenuto, indipendentemente da quale chiave o quale agent l’ha emessa. OrcaRouter posiziona il punto di strozzatura dell’applicazione al gateway — l’unico percorso che ogni chiamata deve attraversare per raggiungere un modello o un tool:

Ogni richiesta, risposta e chiamata a tool che attraversa il gateway — più ogni destinazione in uscita che il tuo agent instrada attraverso di esso — viene valutata rispetto alle policy attive del workspace.
Non esiste un’esenzione “agent fidato”. Una chiamata emessa dal tuo agent in produzione e una emessa da un’istruzione iniettata sono identiche per il chiamante — il gateway le ispeziona entrambe.
Le credenziali sono memorizzate cifrate. I report sono firmati con Ed25519 e pubblicamente verificabili.

Minima agenzia

Un agent dovrebbe avere esattamente la capability di cui ha bisogno per il suo compito — non di più. OrcaRouter lo applica a due livelli: Chiavi API con scope — ogni chiave si vincola a un set specifico di modelli, una allowlist di IP, un tetto di spesa, una scadenza, e l’esatto guardrail e policy del firewall che si applica. La chiave di un agent non può superare il suo scope anche se istruzioni iniettate cercano di dirottarla altrove. Vedi Chiavi con scope, policy e workspace. Allowlist dei tool — le regole del firewall possono limitare quali tool l’agent di una chiave è autorizzato a chiamare. Una chiave emessa a un agent di ricerca in sola lettura può essere vincolata a una policy che nega qualsiasi tool di scrittura — db.insert, fs.write, shell.exec — al gateway, prima che il tool giri. Il modello dell’agent non vede mai la chiamata avere successo.

Le chiavi con scope e le policy del firewall vengono create e modificate dai ruoli Developer+. Leggere le policy è aperto a qualsiasi membro del workspace.

Default-deny su ciò che conta, allow esplicito su ciò che intendi

Un’autorizzazione aperta diventa obsoleta. Il livello di autonomia tight imposta l’intero workspace su una postura default-deny — i comandi shell distruttivi e l’egress SSRF vengono negati di default, e il guardrail Secrets Blocker filtra i segreti dalle tue richieste. Apri esplicitamente le azioni di cui hai bisogno, piuttosto che bloccare esplicitamente quelle di cui non hai bisogno. Il default_verdict del firewall per una policy può essere allow, audit o deny. Le policy appena create hanno come default audit — osserva tutto, blocca nulla — così puoi vedere cosa fanno davvero i tuoi agent prima di irrigidirti. Il livello di autonomia tight imposta questo a deny sulle superfici che contano.

Livello di autonomia	Postura
`tight`	Default-deny; shell distruttiva ed egress SSRF negati; guardrails PII Shield + Secrets Blocker attivi.
`balanced`	Audit di default, nega shell distruttiva, segnala PII. La postura di partenza consigliata.
`permissive`	Nessuna applicazione; observe mode attivo così ogni azione è comunque loggata come gap.

Applica un livello di autonomia con POST /api/workspace/firewall/autonomy (Developer+). Imposta Firewall e Guardrails atomicamente, con undo a un clic.

Assumi una violazione — e sii pronto a dimostrarla

Il zero trust assume che alcune chiamate passeranno, che alcune istruzioni saranno iniettate e che alcuni agent si comporteranno male. Il control stack è progettato di conseguenza: Traccia di audit — ogni match, verdetto e approvazione è loggato nei feed di eventi e match del workspace e correlato all’esecuzione dell’agent che lo ha causato. Puoi ricostruire esattamente cosa ha fatto il tuo agent, in quale ordine, e perché ogni chiamata è stata consentita o bloccata. Rilevamento delle anomalie — il Firewall impara la normale forma d’uso dei tool di ciascun workspace e segnala le deviazioni: picchi di rate e costo rispetto a una baseline mobile a 14 giorni, loop di retry e transizioni tool-to-tool che il workspace non ha mai fatto prima. Vedi Firewall. Approvazioni human-in-the-loop — un verdetto pending_approval trattiene una chiamata per un revisore fuori banda prima che raggiunga il tool. Usalo su qualsiasi azione che è ad alto rischio, irreversibile o nuova. L’agent attende; il revisore approva o rifiuta; la decisione viene registrata. Nessuna modifica al codice richiesta. Il rilevamento delle anomalie e le approvazioni richiedono Developer+ per agire; il feed delle anomalie è leggibile da qualsiasi membro, mentre i feed Events e Runs richiedono Developer+.

4. Il control stack nell’ordine

OrcaRouter applica questi quattro layer a ogni chiamata, in sequenza:

Layer	Cosa applica	Come si mappa su un principio zero-trust
Chiavi con scope	Identità e limiti di capability	Minima agenzia
Guardrails	Contenuto in prompt e risposte	Verifica ogni richiesta (layer di testo)
Agent Firewall	Chiamate a tool, egress, costo	Verifica ogni richiesta (layer di azione); default-deny
Audit + anomalia	Attribuzione, rilevamento di deviazioni	Assumi una violazione

Nessun layer conosce o si fida di ciò che il layer precedente ha deciso. I Guardrails filtrano il testo; il Firewall governa le azioni — sono piani complementari, non ridondanti. Vedi Guardrails vs. Firewall per esattamente quale minaccia intercetta ciascun layer.

5. Cosa significa questo per la tua integrazione

Non devi modificare il codice del tuo agent per ottenere l’applicazione zero-trust. Il tuo agent continua a chiamare https://api.orcarouter.ai/v1 esattamente come prima. La policy vive nel gateway — configurala una volta nel tuo workspace, collega una chiave, e ogni chiamata che quella chiave emette è governata dalla richiesta successiva. La postura di default (audit + observe mode) è non-distruttiva: logga tutto e non blocca nulla, così puoi osservare il reale utilizzo dei tool del tuo agent prima di scrivere regole. Parti da lì.

La configurazione del gateway è role-gated. Leggere policy e impostazioni è aperto a qualsiasi membro del workspace; i feed Events e Runs del firewall richiedono Developer+. Creare o modificare guardrails, policy del firewall, chiavi e livelli di autonomia richiede Developer+. I report di compliance e la lettura in chiaro delle gateway-key richiedono Admin.

Il control stack

Come i quattro layer si compongono su ogni richiesta — il percorso di applicazione completo dalla chiave all’audit.

Baseline Secure Agents

La postura di partenza consigliata — un livello di autonomia, osserva il traffico reale, poi irrigidisci.

Quickstart

Attiva il zero trust in 5 minuti.

​1. Perché “mi fido del mio agent” è il modello sbagliato

​2. Perché la sicurezza a livello di prompt da sola è insufficiente

​3. I quattro principi zero-trust, mappati su OrcaRouter

​Verifica ogni richiesta — non il chiamante

​Minima agenzia

​Default-deny su ciò che conta, allow esplicito su ciò che intendi

​Assumi una violazione — e sii pronto a dimostrarla

​4. Il control stack nell’ordine

​5. Cosa significa questo per la tua integrazione

Il control stack

Baseline Secure Agents

Quickstart

1. Perché “mi fido del mio agent” è il modello sbagliato

2. Perché la sicurezza a livello di prompt da sola è insufficiente

3. I quattro principi zero-trust, mappati su OrcaRouter

Verifica ogni richiesta — non il chiamante

Minima agenzia

Default-deny su ciò che conta, allow esplicito su ciò che intendi

Assumi una violazione — e sii pronto a dimostrarla

4. Il control stack nell’ordine

5. Cosa significa questo per la tua integrazione