https://api.orcarouter.ai/v1/... exatamente
como antes.
Novo no modelo? Leia Modos de enforcement
para o que cada postura faz mecanicamente, e a
linha de base de Agentes Seguros
para o que cada nível de autonomia define. Esta página é a sequência — a ordem
em que você vira os interruptores.
1. O rollout de segurança de IA em três movimentos
Todo o rollout troca autonomia por segurança em três passos, cada um verificado contra tráfego ao vivo antes do próximo:Observe
Permita tudo, registre tudo. Chamadas de ferramenta não cobertas caem em
Discovered Tools; regras de guardrail
flag registram matches sem mudar o
tráfego. Você aprende o formato real do seu agente.Shadow
Uma política real avalia cada chamada, mas todo veredito de enforcement é
rebaixado para
audit e registrado [shadow] would …. Você vê exatamente o
que bloquearia — com nada de fato bloqueado.Enforce
Shadow off.
deny bloqueia, mask redige, pending_approval retém. A
autonomia vai de ampla (balanced) para apertada (tight), e seu agente
está governado.2. Movimento um — observe (autonomia = permissive)
Comece o mais amplo possível. Aplique o nível de autonomiapermissive a
partir de Firewall → Posture (Developer+) — ou
POST /api/workspace/firewall/autonomy. Ele habilita o observe mode do
workspace e não deixa nenhuma política de enforcement, então cada chamada é
permitida e cada chamada não coberta é registrada como um gap de cobertura.
- Firewall → Discovered Tools (Member) — cada ferramenta que seu agente chama, marcada covered ou gap. Esta é a entrada para suas regras: você está prestes a escrever política para tráfego que de fato acontece, não hipóteses.
- Guardrails → Matches (Member) — se você adicionou alguma regra de ação
flag, cada match que elas registram, sem tocar na requisição.
3. Movimento dois — shadow (uma política real, zero bloqueio)
Agora crie a política que você realmente quer — globs de ferramenta, cláusulas de argumento, listas de egress, um tetocap_cost — e ligue o shadow_mode
antes de vinculá-la. (Construa regras a partir de
regras de firewall; o modelo de política completo
está na referência de Firewall.)
shadow_mode: true, aquele deny e aquele cap_cost são ambos
rebaixados para audit no momento da avaliação — o motor computa o veredito
real, registra-o prefixado [shadow] would … e deixa a chamada passar. Vincule
a política às chaves que você está lançando (defina firewall_policy_id na
chave) ou faça dela o padrão do workspace.
Depois leia Firewall → Events / Runs (Developer+) filtrado pelo prefixo
[shadow] e confirme ambos os lados:
Ela dispara onde você quis
Ela dispara onde você quis
Cada chamada
shell.exec mostra [shadow] would deny. Cada run que cruza
seu limite mostra [shadow] would cap_cost. A política vê o tráfego para o
qual você a construiu.Ela NÃO dispara onde você não quis
Ela NÃO dispara onde você não quis
Nenhuma ferramenta legítima aparece com um veredito de would-block. Esta é a
verificação de falso positivo — a razão de o shadow existir. Se uma ferramenta
de que você precisa é sinalizada, corrija a regra e observe de novo antes de
sequer aplicar enforcement.
4. Movimento três — enforce (autonomia balanced, depois tight)
Quando o log de shadow parecer certo, aplique enforcement em dois estágios, não um. Não pule direto para default-deny. Primeiro,balanced. Esta é a primeira postura de enforcement recomendada:
o veredito padrão do firewall é audit, mas as ações mais destrutivas (como
shell destrutivo) são negadas, e o guardrail PII Shield roda somente
audit — ele sinaliza PII sem mascará-la ainda. Você agora está bloqueando a
pior coisa enquanto ainda observa o resto.
Desligue o shadow_mode na sua própria política no mesmo movimento para que
seus vereditos deny / cap_cost entrem ao vivo ao lado da linha de base.
[shadow]. Uma chamada de ferramenta negada retorna HTTP 400
firewall_blocked; ela é skip-retry e custa nenhum token de modelo.
Depois, tight. Assim que balanced estiver quieto, vá para default-deny.
O nível tight nega por padrão, nega shell destrutivo e egress SSRF, e
aplica PII Shield + Secrets Blocker — a PII é mascarada na requisição antes
que o modelo a veja, e segredos nas suas requisições são bloqueados. Um prompt
bloqueado retorna HTTP 400 guardrail_blocked, custa nenhuma cota e é
skip-retry.
| Estágio | Firewall (ações) | Guardrails (texto) | O que você está provando |
|---|---|---|---|
permissive | Observe; nada bloqueado | Só flag | Formato de tráfego real |
balanced | Audit padrão; shell destrutivo negado | PII sinalizada | O pior caso é parado |
tight | Default-deny; ferramentas shell + no formato de fetch (SSRF) negadas | PII mascarada, segredos bloqueados | Zero-trust completo |
Ressalva de streaming para PII. Sob
tight, o PII Shield mascara PII na
requisição antes que o modelo a veja — isso está ao vivo. A máscara do
lado de output de uma resposta em streaming ainda não está ao vivo; um block
de output é aplicado em streaming (o scanner corta o stream). Se você depende de
redigir a saída do modelo, verifique a sua combinação de stage/stream na aba
Test do guardrail primeiro. Veja Guardrails.5. A saída de emergência — desfazer em um clique
Toda mudança de autonomia é uma única transação que captura um snapshot da sua postura anterior, então você pode reverter direto a partir de Firewall → Posture (ouPOST /api/workspace/firewall/autonomy/undo/:audit_id). Você também pode
simplesmente reaplicar um nível mais suave — baixar tight de volta para
balanced, ou balanced de volta para permissive — a qualquer momento.
6. De onde vêm os vereditos de cada movimento
O rollout nunca bloqueia algo que você não pediu, porque cada postura mapeia para um mecanismo explícito e observável:| Postura | Mecanismo | Resultado |
|---|---|---|
| Observe | firewall_observe_mode do workspace ligado + flag de guardrail | Permitir + registrar gaps / matches |
| Shadow | shadow_mode por política | Veredito real computado, rebaixado para audit, registrado [shadow] would … |
| Enforce | shadow_mode off + autonomia tight/balanced | deny / mask / cap_cost entram ao vivo |
audit, a ação flag e
shadow_mode — são interruptores distintos, documentados lado a lado em
Modos de enforcement.
7. Próximos passos
Modos de enforcement
O mapa de mecanismos por trás de observe, shadow e enforce.
Linha de base de Agentes Seguros
O que cada nível de autonomia define, e como simulá-lo primeiro.
Domine um agente autônomo
O próximo passo depois de aplicar enforcement: limites de custo, detecção de
anomalias e aprovações.
Agent Firewall
Políticas, regras, vereditos, shadow mode e o gateway MCP por completo.
