Saltar para o conteúdo principal
Este é o caminho mais rápido de um agente desprotegido para uma postura de zero trust. Você aplica um interruptor, continua chamando o gateway exatamente como antes, observa o que seu agente realmente faz e depois restringe. Sem regras para criar, sem mudança de SDK.
Aplicar uma postura de segurança altera uma configuração de workspace, então os passos 2 e 5 precisam do papel de Developer. O feed de Matches de guardrail (passo 4) está aberto a qualquer membro; o feed de Events do firewall também precisa de Developer.

Ative em 5 passos

1

Obtenha uma chave de API

Se você ainda não tiver uma, crie uma chave — veja Obtenha uma chave de API. Dê esta chave ao agente que você quer proteger. Tudo abaixo se vincula ao seu workspace, então a mesma postura cobre cada chave nele.
2

Aplique a linha de base de Agentes Seguros

No console, abra Firewall → Posture e aplique o nível de autonomia balanced (papel de Developer).Em uma transação isso define tanto a postura de Firewall quanto de Guardrails: chamadas de ferramenta são auditadas e PII é sinalizada, enquanto as ações mais destrutivas (como shell destrutivo) são negadas — para que você observe antes de aplicar enforcement amplamente. É um único interruptor com desfazer em um clique. (Para um passo que não bloqueia nada, comece em permissive.)
3

Envie uma requisição exatamente como antes

Nada sobre sua chamada muda. Use a mesma chave, o mesmo formato OpenAI:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
A requisição passa. Com balanced ela não é bloqueada — é observada. O email é sinalizado e quaisquer chamadas de ferramenta que seu agente faz são registradas.
4

Veja o que seu agente realmente fez

Dois feeds, ambos com escopo de workspace:
  • Firewall → Events / Runs — cada chamada de ferramenta que seu agente fez, seu veredito e qual superfície ela atingiu (a ferramenta que ele anunciou, a chamada que o modelo emitiu, um dispatch de MCP ou um destino outbound).
  • Guardrails → Matches — cada regra que disparou, como o email sinalizado, agrupado por guardrail e ação.
Este é o valor de observar primeiro: você vê o comportamento real do seu agente antes que qualquer regra possa quebrá-lo.
5

Restrinja para aplicar enforcement

Uma vez que os feeds parecerem corretos, mude o nível de autonomia para tight na mesma página Firewall → Posture (papel de Developer).Agora o enforcement está ativo: PII é mascarada antes que o modelo a veja, segredos são bloqueados das suas requisições e chamadas de shell destrutivo e egress SSRF são negados. Uma chamada de ferramenta negada volta como HTTP 400 firewall_blocked; um prompt bloqueado volta como HTTP 400 guardrail_blocked — e um bloqueio não custa cota. Sem mudança na aplicação — a próxima requisição já é governada.
Zero trust ativado: cada prompt e resposta inspecionado, cada chamada de ferramenta e requisição outbound roteada governada, cada decisão registrada.

O que você acabou de ativar

CamadaCom balancedCom tight
Guardrails (texto)PII sinalizada (somente auditoria)PII mascarada, segredos bloqueados
Firewall (ações)Auditado; shell destrutivo negadoDefault-deny; shell destrutivo + egress SSRF negados
VisibilidadeCompleta — Events + MatchesCompleta — Events + Matches

Ficou muito restritivo?

Cada mudança de autonomia é uma transação com desfazer em um clique, então você pode voltar imediatamente ao estado anterior na página do Firewall (ou pela API de desfazer). Você também pode simplesmente re-aplicar um nível mais suave (balanced ou permissive) a qualquer momento.

Próximos passos

A linha de base de Agentes Seguros

O que cada nível de autonomia define e como simular antes de aplicar.

Modos de enforcement

Observe → shadow → enforce, o rollout seguro em detalhes.

Guardrails

Crie suas próprias regras de conteúdo além da linha de base.

Agent Firewall

Crie listas de permissão de ferramentas, verificações de argumentos e regras de egress.