Guardrails vs. Agent Firewall — quando usare quale

La risposta breve: i Guardrails governano il testo; il Firewall governa le azioni. Sono complementari — una singola richiesta scorre attraverso entrambi — e il modo più rapido per configurarli insieme è un livello di autonomia. Il resto di questa pagina è per i casi in cui hai bisogno di sapere quale layer possiede una minaccia specifica.

Ruolo richiesto. Qualsiasi membro del workspace può leggere policy e il feed Matches del guardrail; il feed Events del firewall richiede il ruolo Developer. Creare o modificare guardrail o policy del firewall richiede anche Developer o superiore.

1. La distinzione in una riga

Layer	Governa	Vede
Guardrails	Testo — cosa il modello legge e scrive	Contenuto del prompt, contenuto della risposta
Agent Firewall	Azioni — cosa fa l’agent	Chiamate a tool, dispatch MCP, destinazioni di rete in uscita

I Guardrails scattano prima della chiamata upstream (sul prompt) e dopo di essa (sulla risposta). Il Firewall scatta su ogni chiamata a tool che il modello emette o che l’agent emette — indipendentemente dal modello o provider che ha servito il turno.

2. Confronto affiancato

Dimensione	Guardrails	Agent Firewall
Governa	Testo del prompt e testo della risposta del modello	Chiamate a tool, dispatch MCP, destinazioni egress, costo dell’agent
Vede	Il messaggio utente, il system prompt e la risposta del modello	Nome del tool, argomenti della chiamata, i tool call che il modello emette, host/IP in uscita
Si collega tramite	`guardrail_id` sulla chiave API	`firewall_policy_id` sulla chiave API
Tipi di regola	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Glob del nome del tool + clausole sugli argomenti + scope di egress + ownership della skill
Minacce di esempio	PII nei prompt, segreti API nelle risposte, jailbreak, output fuori tema, contesto sovradimensionato	Chiamata a tool pericolosa, SSRF, esfiltrazione di dati, loop di costo incontrollato dell’agent, MCP server non approvato
Verdetti / azioni	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Quando scatta	Stage input: prima della chiamata al modello; stage output: dopo che il modello risponde	Su ogni chiamata a tool che il modello emette o che l’agent emette
Shadow / observe mode	No — i guardrail scattano oppure no	Sì — la shadow mode declassa i verdetti applicativi a `audit` per un rollout sicuro

3. Minaccia → quale layer

Usa questa tabella per instradare un nuovo requisito di sicurezza al controllo corretto:

Minaccia	Vai verso
PII in un messaggio utente	Guardrails — regola `pii` in input (`mask` / `block`)
Segreto nella risposta del modello	Guardrails — regola dei segreti in output
Chiamata a tool pericolosa (`shell.exec rm -rf /`)	Firewall — `deny` su glob del tool + clausola sugli argomenti
SSRF / esfiltrazione di dati tramite URL in uscita	Firewall — allowlist/denylist egress
Prompt injection da contenuto non attendibile	Entrambi — guardrail in input + allowlist del firewall
Segreto in un argomento del tool	Firewall `sanitize` + regola dei segreti dei Guardrails
Jailbreak / bypass della policy	Guardrails — `llm_judge` / keyword / regex
Prompt sovradimensionato o costo di token	Guardrails — regola `max_chars`
Spesa incontrollata dell’agent (loop di costo)	Firewall — verdetto `cap_cost`
MCP server non approvato	Firewall — deny superficie MCP / `pending_approval`
Dati sensibili dal risultato di un tool	Guardrails — regola in output sulla risposta

Il “perché” approfondito per ogni abbinamento vive sulle pagine di approfondimento delle Minacce.

4. Usa entrambi — i livelli di autonomia li impostano insieme

I Guardrails e il Firewall sono progettati per comporsi, non competere. Una singola richiesta passa attraverso entrambi i piani:

Il guardrail in input gira — il testo del prompt viene filtrato e opzionalmente mascherato.
Chiamata al modello — il prompt (possibilmente sanitizzato) raggiunge il modello upstream.
Firewall — ogni chiamata a tool che il modello emette viene valutata.
Il guardrail in output gira — il testo della risposta del modello viene filtrato.

Il modo più rapido per configurare entrambi in una volta è un livello di autonomia — una singola impostazione che scrive atomicamente una policy del Firewall e una policy dei Guardrails per l’intero workspace, con undo a un clic:

Livello di autonomia	Postura del Firewall	Postura dei Guardrails
`tight`	Default-deny; blocca shell distruttiva + egress SSRF	PII Shield + Secrets Blocker attivi
`balanced`	Audit di default; nega shell distruttiva	PII Shield solo-audit (segnala PII)
`permissive`	Nessuna regola applicativa; observe mode attivo	Nessuna applicazione

Applica un livello di autonomia dalla console del Firewall (POST /api/workspace/firewall/autonomy, Developer+), poi ottimizza ciascun piano indipendentemente da lì.

5. Riepilogo

I Guardrails possiedono il testo; il Firewall possiede le azioni — eseguili entrambi, lascia che il livello di autonomia li colleghi insieme, e irrigidisci ciascun piano indipendentemente una volta che puoi vedere il traffico reale dei tuoi agent.

Guardrails

Tipi di regola, rilevamento PII, LLM judge, harness di eval e riferimento API.

Agent Firewall

Verdetti, superfici, livelli di autonomia, approvazione HITL e riferimento API.

Modalità di applicazione Scope e chiavi

​1. La distinzione in una riga

​2. Confronto affiancato

​3. Minaccia → quale layer

​4. Usa entrambi — i livelli di autonomia li impostano insieme

​5. Riepilogo

Guardrails

Agent Firewall

1. La distinzione in una riga

2. Confronto affiancato

3. Minaccia → quale layer

4. Usa entrambi — i livelli di autonomia li impostano insieme

5. Riepilogo