Proteggere gli agent AI con OrcaRouter

Un agent AI non è un chatbot. Legge pagine web non attendibili, chiama tool, spende denaro, raggiunge host interni e carica capability trovate a runtime. Ognuna di queste è un’azione con conseguenze reali, e la maggior parte avviene senza un essere umano nel loop. OrcaRouter si trova sul percorso tra il tuo agent e ogni modello che chiama, quindi è l’unico punto che vede ogni richiesta e risposta — e ogni chiamata a tool e destinazione in uscita che il tuo agent instrada attraverso di esso — indipendentemente da quale provider l’ha servita. Quel punto di strozzatura è dove appartiene l’applicazione zero-trust. Lo configuri una volta nel tuo workspace; il tuo agent continua a chiamare https://api.orcarouter.ai/v1 esattamente come prima.

1. La minaccia: gli agent agiscono, non solo chattano

La sicurezza a livello di prompt è stata costruita per la chat. Assume che il modello produca testo e che un essere umano lo legga. Gli agent rompono quell’assunzione:

Ingeriscono contenuti non attendibili — una pagina web, un documento recuperato, il risultato di un tool — che possono contenere istruzioni (prompt injection).
Chiamano tool — shell.exec, db.query, un’API di pagamento — che fanno cose irreversibili.
Raggiungono la rete — recuperando URL che un attaccante può dirottare verso servizi interni o endpoint di esfiltrazione.
Si auto-estendono — installando skill, plugin e MCP server che non hai mai esaminato.

Niente di tutto ciò è visibile a un filtro di contenuto che legge solo il prompt. Proteggere un agent significa controllare identità, contenuto, azioni e la rete, e mantenere una traccia di audit di tutto.

2. Il control stack

OrcaRouter applica quattro layer a ogni richiesta. Ognuno è indipendente, con scope a livello di workspace, e si collega a una chiave API senza modifiche al codice.

Chiavi con scope

Identità a minima agenzia. Vincolata a modelli specifici, IP, un tetto di spesa, una scadenza, e l’esatto guardrail + policy del firewall che si applica.

Guardrails

Controllo dei contenuti. Filtra prompt e risposte — blocca, maschera o segnala PII, segreti, injection e output non sicuro.

Agent Firewall

Controllo delle azioni. Consenti i tool con una allowlist, valida e sanitizza gli argomenti delle chiamate a tool, metti in attesa di approvazione e limita egress e costo.

Audit

Attribuzione. Ogni match, verdetto e approvazione è loggato e correlato all’esecuzione dell’agent che lo ha causato.

Una richiesta scorre attraverso di essi nell’ordine: la chiave decide se la chiamata è anche solo consentita e quali policy si applicano; i guardrails filtrano il testo in input; il modello gira; il firewall giudica le chiamate a tool e le destinazioni in uscita; i guardrails filtrano l’output; e ogni decisione finisce nella traccia di audit. Vedi Il control stack per il percorso completo.

3. Perché “zero trust”

Zero trust significa che nessuna richiesta è attendibile per il fatto di provenire da un certo posto. Una chiamata a tool è giudicata per ciò che è, non per il fatto che il tuo agent l’abbia emessa — perché l’agent potrebbe stare agendo su istruzioni iniettate che ha letto da una pagina non attendibile. OrcaRouter lo applica con default-deny sulle azioni che contano e allowlist esplicite per quelle che intendi. Perché gli agent AI hanno bisogno del zero trust approfondisce il modello.

4. Tutto vive nel gateway

Il control stack è configurato nel tuo workspace e applicato al gateway, non nella tua applicazione:

Collegalo una volta, si applica ovunque. Collega un guardrail e una policy del firewall a una chiave API; ogni chiamata che quella chiave fa viene filtrata. Modifica la policy e ogni chiave collegata cambia alla richiesta successiva.
Nessun redeploy, nessuna modifica all’SDK. Il tuo agent continua a emettere le stesse chiamate in formato OpenAI. L’applicazione è invisibile finché una regola non scatta.
Agnostico rispetto al provider. La stessa policy vale su GPT, Claude, Gemini e il resto — filtra testo e azioni, non la scelta del modello.

La configurazione è role-gated nel tuo workspace. Leggere policy e impostazioni è aperto a qualsiasi membro; i feed Events e Runs del firewall richiedono il ruolo Developer; creare o modificare guardrails, policy del firewall e chiavi richiede Developer; le modifiche di compliance e alla gateway-key richiedono Admin. In tutti questi docs, ogni passaggio di configurazione indica il ruolo necessario.

5. Il percorso rapido: un solo switch

Non devi scrivere regole per essere protetto. Un livello di autonomia imposta tutta la postura del tuo Firewall e dei Guardrails in un singolo passo, con undo a un clic:

Livello	Cosa ottieni
`tight`	Default-deny; blocca tool distruttivi ed egress SSRF; guardrails PII + segreti attivi.
`balanced`	Audit di default, nega shell distruttiva, segnala PII. La postura di partenza consigliata.
`permissive`	Niente applicato, ma tutto osservato così vedi comunque il comportamento del tuo agent.

Questo è il baseline Secure Agents — parti da lì, guarda cosa fanno davvero i tuoi agent, poi irrigidisci.

6. Dove andare dopo

Quickstart

Attiva il zero trust in 5 minuti.

Perché zero trust

Il modello di threat dietro il design.

Guardrails vs. Firewall

Quale layer intercetta quale minaccia.

Di cosa sei responsabile

Cosa protegge il gateway, e cosa rimane tuo.

Perché zero trust

​1. La minaccia: gli agent agiscono, non solo chattano

​2. Il control stack

Chiavi con scope

Guardrails

Agent Firewall

Audit

​3. Perché “zero trust”

​4. Tutto vive nel gateway

​5. Il percorso rapido: un solo switch

​6. Dove andare dopo

Quickstart

Perché zero trust

Guardrails vs. Firewall

Di cosa sei responsabile

1. La minaccia: gli agent agiscono, non solo chattano

2. Il control stack

3. Perché “zero trust”

4. Tutto vive nel gateway

5. Il percorso rapido: un solo switch

6. Dove andare dopo