Guardrails vs. Agent Firewall — quando usar cada um
guardrails vs firewall: distinção em uma linha, comparação lado a lado e um mapeamento de ameaça para camada para ajudá-lo a decidir qual plano de segurança do OrcaRouter intercepta cada risco.
A resposta curta: os Guardrails governam texto; o Firewall governa ações.
Eles são complementares — uma única requisição flui por ambos — e a maneira
mais rápida de configurá-los juntos é um nível de autonomia.O restante desta página é para os casos em que você precisa saber qual camada
é responsável por uma ameaça específica.
Papel necessário. Qualquer membro do workspace pode ler políticas e o feed
de Matches de guardrail; o feed de Events do firewall exige o papel de
Developer. Criar ou editar guardrails ou políticas de firewall também exige
Developer ou superior.
Chamadas de ferramenta, dispatches de MCP, destinos de rede outbound
Os guardrails disparam antes da chamada upstream (no prompt) e depois dela
(na resposta). O Firewall dispara em cada chamada de ferramenta que o modelo
emite ou que o agente emite — independentemente do modelo ou provedor que
serviu o turno.
4. Use ambos — níveis de autonomia os configuram juntos
Guardrails e o Firewall são projetados para se compor, não competir. Uma única
requisição passa por ambos os planos:
Guardrail de entrada roda — o texto do prompt é inspecionado e
opcionalmente mascarado.
Chamada ao modelo — o prompt (possivelmente sanitizado) alcança o
modelo upstream.
Firewall — cada chamada de ferramenta que o modelo emite é avaliada.
Guardrail de saída roda — o texto da resposta do modelo é inspecionado.
A maneira mais rápida de configurar ambos de uma vez é um nível de
autonomia — uma única configuração que atomicamente escreve uma política de
Firewall e uma política de Guardrails para todo o workspace, com desfazer em
um clique:
Aplique um nível de autonomia no console do Firewall (POST /api/workspace/firewall/autonomy,
Developer+), depois ajuste cada plano independentemente a partir daí.
Os Guardrails são responsáveis pelo texto; o Firewall pelas ações — execute
ambos, deixe o nível de autonomia conectá-los e restrinja cada plano
independentemente assim que você puder ver o tráfego real dos seus agentes.
Guardrails
Tipos de regra, detecção de PII, LLM judge, eval harness e referência
de API.
Agent Firewall
Vereditos, superfícies, níveis de autonomia, aprovação HITL e referência
de API.