Guardrails vs. Agent Firewall — quando usar cada um

A resposta curta: os Guardrails governam texto; o Firewall governa ações. Eles são complementares — uma única requisição flui por ambos — e a maneira mais rápida de configurá-los juntos é um nível de autonomia. O restante desta página é para os casos em que você precisa saber qual camada é responsável por uma ameaça específica.

Papel necessário. Qualquer membro do workspace pode ler políticas e o feed de Matches de guardrail; o feed de Events do firewall exige o papel de Developer. Criar ou editar guardrails ou políticas de firewall também exige Developer ou superior.

1. A distinção em uma linha

Camada	Governa	Vê
Guardrails	Texto — o que o modelo lê e escreve	Conteúdo do prompt, conteúdo da resposta
Agent Firewall	Ações — o que o agente faz	Chamadas de ferramenta, dispatches de MCP, destinos de rede outbound

Os guardrails disparam antes da chamada upstream (no prompt) e depois dela (na resposta). O Firewall dispara em cada chamada de ferramenta que o modelo emite ou que o agente emite — independentemente do modelo ou provedor que serviu o turno.

2. Comparação lado a lado

Dimensão	Guardrails	Agent Firewall
Governa	Texto do prompt e texto da resposta do modelo	Chamadas de ferramenta, dispatches de MCP, destinos de egress, custo do agente
Vê	A mensagem do usuário, o system prompt e a resposta do modelo	Nome da ferramenta, argumentos da chamada, as tool_calls que o modelo emite, host/IP outbound
Conecta via	`guardrail_id` na chave de API	`firewall_policy_id` na chave de API
Tipos de regra	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Glob de nome de ferramenta + cláusulas de argumento + escopo de egress + propriedade de skill
Exemplos de ameaças	PII em prompts, segredos de API em respostas, jailbreaks, saída fora de tópico, contexto excessivo	Chamada de ferramenta perigosa, SSRF, exfiltração de dados, loop de custo descontrolado de agente, servidor MCP não aprovado
Vereditos / ações	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Quando dispara	Estágio de entrada: antes da chamada ao modelo; estágio de saída: após o modelo responder	Em cada chamada de ferramenta que o modelo emite ou o agente emite
Shadow / observe mode	Não — guardrails disparam ou não disparam	Sim — shadow mode rebaixa vereditos de enforcement para `audit` para rollout seguro

3. Ameaça → qual camada

Use esta tabela para direcionar um novo requisito de segurança para o controle correto:

Ameaça	Use
PII em uma mensagem do usuário	Guardrails — regra `pii` de entrada (`mask` / `block`)
Segredo na resposta do modelo	Guardrails — regra de segredos na saída
Chamada de ferramenta perigosa (`shell.exec rm -rf /`)	Firewall — `deny` no glob de ferramenta + cláusula de argumento
SSRF / exfiltração de dados via URL outbound	Firewall — lista de allow/deny de egress
Injeção de prompt de conteúdo não confiável	Ambos — guardrail de entrada + lista de permissão do firewall
Segredo em um argumento de ferramenta	Firewall `sanitize` + regra de segredos dos Guardrails
Jailbreak / bypass de política	Guardrails — `llm_judge` / keyword / regex
Prompt excessivo ou custo de tokens	Guardrails — regra `max_chars`
Gasto descontrolado do agente (loop de custo)	Firewall — veredito `cap_cost`
Servidor MCP não aprovado	Firewall — deny na superfície MCP / `pending_approval`
Dados sensíveis de um resultado de ferramenta	Guardrails — regra de saída na resposta

O “porquê” detalhado para cada combinação está nas páginas de aprofundamento em Ameaças.

4. Use ambos — níveis de autonomia os configuram juntos

Guardrails e o Firewall são projetados para se compor, não competir. Uma única requisição passa por ambos os planos:

Guardrail de entrada roda — o texto do prompt é inspecionado e opcionalmente mascarado.
Chamada ao modelo — o prompt (possivelmente sanitizado) alcança o modelo upstream.
Firewall — cada chamada de ferramenta que o modelo emite é avaliada.
Guardrail de saída roda — o texto da resposta do modelo é inspecionado.

A maneira mais rápida de configurar ambos de uma vez é um nível de autonomia — uma única configuração que atomicamente escreve uma política de Firewall e uma política de Guardrails para todo o workspace, com desfazer em um clique:

Nível de autonomia	Postura do Firewall	Postura dos Guardrails
`tight`	Default-deny; bloqueia shell destrutivo + egress SSRF	PII Shield + Secrets Blocker ativos
`balanced`	Audit padrão; nega shell destrutivo	PII Shield somente auditoria (sinaliza PII)
`permissive`	Sem regras de enforcement; observe mode ativado	Sem enforcement

Aplique um nível de autonomia no console do Firewall (POST /api/workspace/firewall/autonomy, Developer+), depois ajuste cada plano independentemente a partir daí.

5. Resumo

Os Guardrails são responsáveis pelo texto; o Firewall pelas ações — execute ambos, deixe o nível de autonomia conectá-los e restrinja cada plano independentemente assim que você puder ver o tráfego real dos seus agentes.

Guardrails

Tipos de regra, detecção de PII, LLM judge, eval harness e referência de API.

Agent Firewall

Vereditos, superfícies, níveis de autonomia, aprovação HITL e referência de API.

Modos de enforcement Escopo e chaves

​1. A distinção em uma linha

​2. Comparação lado a lado

​3. Ameaça → qual camada

​4. Use ambos — níveis de autonomia os configuram juntos

​5. Resumo

Guardrails

Agent Firewall

1. A distinção em uma linha

2. Comparação lado a lado

3. Ameaça → qual camada

4. Use ambos — níveis de autonomia os configuram juntos

5. Resumo