Modos de enforcement: observe, shadow e enforce

Antes que uma regra bloqueie tráfego de produção, você quer saber que ela dispara nas coisas certas e em nada mais. O OrcaRouter fornece três posturas — observe, shadow e enforce — que permitem fazer o rollout de forma incremental, com visibilidade em cada etapa e sem surpresas. Esta página explica o que cada postura significa mecanicamente, como transitar por elas e como os níveis de autonomia definem tudo isso em um único passo.

1. As três posturas em resumo

Postura	O que acontece com o tráfego	Mecanismo	Quando usar
Observe	Todo o tráfego é permitido; chamadas sem política são registradas como gaps de cobertura	Observe mode em nível de workspace ativado; regras de guardrail usam ação `flag`; `default_verdict` do firewall é `audit`	Descoberta de linha de base — entenda o que seus agentes realmente fazem antes de escrever uma única regra
Shadow	O tráfego é permitido; uma política avalia e bloqueios potenciais são registrados como `[shadow] would …`	Flag `shadow_mode` por política no firewall	Validação segura pré-produção — confirme que uma política dispara corretamente antes de tocar o tráfego
Enforce	Vereditos reais se aplicam — deny bloqueia, sanitize redige, pending_approval retém	Shadow mode desligado; ações de guardrail definidas como `block` / `mask`; vereditos do firewall são reais	Enforcement de produção após você ter verificado a política em shadow

Requisito de papel. Qualquer membro do workspace pode ler políticas, configurações e a visão de ferramentas descobertas; os feeds de Eventos e Runs do firewall exigem o papel de Developer. Alterar configurações, ações de política ou shadow_mode também exige Developer ou superior.

2. Postura de observe — meça antes de criar regras

A postura de observe não é um único interruptor. É uma combinação de três mecanismos independentes que juntos produzem “permita tudo, registre tudo”:

Observe mode do firewall (configuração de workspace)

Quando uma chamada de ferramenta resolve para nenhuma política — sem vinculação de chave e sem padrão de workspace — o observe mode em nível de workspace do firewall determina o que acontece:

Observe mode ativado: a chamada é permitida e registrada como um gap de cobertura. A visão de Ferramentas Descobertas se preenche com esses eventos de gap, mostrando exatamente quais ferramentas seus agentes estão usando sem nenhuma regra cobrindo-as.
Observe mode desativado: a chamada é permitida silenciosamente — byte-idêntica à de um workspace que nunca habilitou o recurso.

O observe mode é a superfície de detecção de gaps. Ele só dispara quando nenhuma política é resolvida. Ele não é o mesmo que ter uma política definida como audit.

Veredito `audit` do firewall (padrão por política)

Quando uma política é resolvida mas nenhuma regra corresponde a uma chamada de ferramenta, o default_verdict da política se aplica. O valor padrão para default_verdict é audit — permita a chamada e registre para revisão. Uma nova política sem regras e sem mudanças de configuração não bloqueia nada e não permite nada silenciosamente: ela audita tudo que vê. audit também é um veredito de regra normal. Uma regra que corresponde e produz audit deixa a chamada passar e a registra — o análogo do modo de auditoria de guardrail para o firewall.

Ação `flag` de guardrail (ação por regra)

No lado dos guardrails, a ação flag é o equivalente ao observe: a regra dispara, uma correspondência é registrada no feed de Matches e a requisição continua sem alteração. Sem bloqueio. Sem redação. Use flag quando você quiser medir uma regra — ver com que frequência ela dispara e em quê — antes de se comprometer com block ou mask.

Juntos, esses três produzem a postura de observe: o observe mode captura chamadas de ferramenta não cobertas; vereditos audit cobrem chamadas de ferramenta sob uma política mas ainda não sob uma regra específica; ações flag cobrem verificações de guardrail para as quais você ainda não está pronto para aplicar enforcement.

3. Postura de shadow — valide antes de aplicar

O shadow mode é uma flag por política (shadow_mode: true) em uma política de firewall. Quando ela está ativa:

A política avalia cada chamada de ferramenta exatamente como faria em produção — regras são correspondidas, vereditos são calculados, predicados de argumento são testados.
Todo veredito de enforcement (deny, sanitize, pending_approval) é rebaixado para audit antes de chegar à ferramenta.
O motivo registrado recebe o prefixo [shadow] would … para que você possa ver no feed de eventos exatamente o que teria sido bloqueado, sanitizado ou retido.

O shadow mode é o seu interruptor de rollout seguro. Escreva uma política, ative o shadow, aponte tráfego real a ela, observe as visões de eventos e runs por algumas horas ou dias, confirme que a política dispara nas ferramentas certas e em nada inesperado, depois desligue o shadow mode para começar a aplicar.

Os guardrails não têm equivalente ao shadow_mode no nível da política — use a ação flag por regra para observar verificações individuais de guardrail antes de mudar para block ou mask.

4. Postura de enforce — vereditos reais, consequências reais

Na postura de enforce, nada é rebaixado:

Firewall deny → o agente vê um erro de ferramenta (MCP) ou HTTP 400 firewall_blocked (superfície inbound). O erro nomeia a ferramenta e o motivo. Marcado como skip-retry.
Firewall sanitize → substrings correspondentes são redigidas dos argumentos da ferramenta e a chamada limpa é encaminhada.
Firewall pending_approval → a chamada é retida; o agente recebe HTTP 400 firewall_approval_pending e um id de aprovação para consultar.
Guardrail block → HTTP 400 guardrail_blocked, nomeando o guardrail e a regra que disparou. Não custa cota.
Guardrail mask → a correspondência é redigida (ex.: jane@acme.com → [EMAIL]) e a requisição continua com o texto sanitizado.

Para alcançar a postura de enforce: desligue shadow_mode na política de firewall e altere as ações de regra de guardrail de flag para block ou mask conforme apropriado.

5. Rollout recomendado

Observe — descubra o que seus agentes fazem

Ative o observe mode do workspace (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Deixe o firewall sem política (ou com uma política cujo default_verdict seja audit). Adicione ações flag a quaisquer regras de guardrail que você queira medir.Observe a visão de Ferramentas Descobertas se preencher com cada chamada de ferramenta que seus agentes fazem, marcadas como covered ou gap. Use isso como entrada para escrever suas primeiras regras de política — você está escrevendo regras para tráfego real, não hipotético.Deixe isso rodar até que a visão de Ferramentas Descobertas se estabilize e você tenha dados suficientes para escrever regras intencionais.

Shadow — valide antes do enforcement

Crie uma política de firewall com shadow_mode: true. Conecte-a às chaves que você quer governar (ou defina-a como padrão do workspace). Para guardrails, mantenha as ações de regra como flag nesta etapa.A política agora avalia cada chamada de ferramenta real e registra o que faria. Abra as visões de Events e Runs e filtre pelo prefixo [shadow]. Confirme:

Que ela dispara nas ferramentas e padrões de argumento que você pretendia.
Que ela não dispara em nada que você quer permitir (falsos positivos).

Ajuste as regras, re-observe, repita. Quando o log de shadow parecer certo, avance.

Enforce — acione o interruptor

Defina shadow_mode: false na política. Para quaisquer regras de guardrail que você estava observando com flag, altere a ação para block ou mask conforme apropriado.Monitore o feed de Events para bloqueios inesperados na primeira hora. A ação Undo no log de auditoria de autonomia permite restaurar o estado anterior em um clique se você precisar fazer rollback.

6. Níveis de autonomia — defina tudo de uma vez

Ajustar políticas regra por regra é o caminho preciso; os níveis de autonomia são o caminho rápido — um único controle que atomicamente define a postura de Firewall e Guardrails do seu workspace em uma transação, com desfazer em um clique:

Nível	Postura produzida
`permissive`	Postura observe: sem política de enforcement, sem guardrails, observe mode do workspace ativado — você vê tudo, nada é bloqueado. Mapeia para a etapa Observe acima.
`balanced`	Veredito padrão `audit`, mas shell destrutivo é negado; PII Shield roda em modo somente auditoria (sinaliza PII); observe mode desativado. A postura inicial recomendada uma vez que você conhece a forma do seu tráfego.
`tight`	Enforce completo: default-deny, com shell destrutivo e egress SSRF negados; guardrails PII Shield + Secrets Blocker aplicados (inspecionam requisições por PII e segredos); observe mode desativado.

Aplique via POST /api/workspace/firewall/autonomy (Developer+). O endpoint Simulate (GET /api/workspace/firewall/simulate?level=) pré-visualiza o que uma mudança de nível faria antes que você a aplique.

Os níveis de autonomia são uma camada de conveniência sobre os mesmos mecanismos descritos acima — eles definem default_verdict, observe mode, regras do firewall e ações de regra de guardrail. Eles não alternam shadow_mode; isso permanece como um controle manual por política. Você pode sempre sobrescrever configurações individuais após aplicar um nível.

7. Mapa de mecanismos — qual configuração faz o quê

Esta tabela é a referência autoritativa. Os quatro termos são distintos — não os confunda:

Termo	Tipo	O que controla
Observe mode	Configuração de workspace	Comportamento quando uma chamada de ferramenta resolve para nenhuma política. Ativado → registra como gap (Ferramentas Descobertas). Desativado → allow silencioso.
Veredito `audit`	Veredito de política / regra	Comportamento para uma chamada de ferramenta sob uma política que corresponde (ou cai para o padrão). Permite + registra. O `default_verdict` padrão.
Ação `flag`	Ação de regra de guardrail	A verificação de guardrail permite o tráfego e registra uma correspondência. A ação de observe-sem-enforce para guardrails.
`shadow_mode`	Flag por política de firewall	Rebaixa todos os vereditos de enforcement (deny/sanitize/pending_approval) para `audit` e prefixa o motivo com `[shadow] would …`.

Linha de base de Agentes Seguros

A postura inicial recomendada e a configuração de cinco minutos para segurança de agentes com zero trust.

Agent Firewall

Referência completa para políticas, regras, vereditos, shadow mode e o gateway MCP.

Os modos de enforcement não são um binário ligado/desligado. Mova-se por observe → shadow → enforce e suas regras são verificadas no tráfego real antes de bloqueá-lo.

​1. As três posturas em resumo

​2. Postura de observe — meça antes de criar regras

​Observe mode do firewall (configuração de workspace)

​Veredito audit do firewall (padrão por política)

​Ação flag de guardrail (ação por regra)

​3. Postura de shadow — valide antes de aplicar

​4. Postura de enforce — vereditos reais, consequências reais

​5. Rollout recomendado

​6. Níveis de autonomia — defina tudo de uma vez

​7. Mapa de mecanismos — qual configuração faz o quê

Linha de base de Agentes Seguros

Agent Firewall

1. As três posturas em resumo

2. Postura de observe — meça antes de criar regras

Observe mode do firewall (configuração de workspace)

Veredito `audit` do firewall (padrão por política)

Ação `flag` de guardrail (ação por regra)

3. Postura de shadow — valide antes de aplicar

4. Postura de enforce — vereditos reais, consequências reais

5. Rollout recomendado

6. Níveis de autonomia — defina tudo de uma vez

7. Mapa de mecanismos — qual configuração faz o quê