Aplicar uma postura de segurança altera uma configuração de workspace, então
os passos 2 e 5 precisam do papel de Developer. O feed de Matches de
guardrail (passo 4) está aberto a qualquer membro; o feed de Events do
firewall também precisa de Developer.
Ative em 5 passos
Obtenha uma chave de API
Se você ainda não tiver uma, crie uma chave — veja
Obtenha uma chave de API. Dê esta chave
ao agente que você quer proteger. Tudo abaixo se vincula ao seu workspace,
então a mesma postura cobre cada chave nele.
Aplique a linha de base de Agentes Seguros
No console, abra Firewall → Posture e aplique o
nível de autonomia
balanced (papel de Developer).Em uma transação isso define tanto a postura de Firewall quanto de
Guardrails: chamadas de ferramenta são auditadas e PII é sinalizada,
enquanto as ações mais destrutivas (como shell destrutivo) são negadas —
para que você observe antes de aplicar enforcement amplamente. É um único
interruptor com desfazer em um clique. (Para um passo que não bloqueia
nada, comece em permissive.)Envie uma requisição exatamente como antes
Nada sobre sua chamada muda. Use a mesma chave, o mesmo formato OpenAI:A requisição passa. Com
balanced ela não é bloqueada — é observada. O
email é sinalizado e quaisquer chamadas de ferramenta que seu agente faz
são registradas.Veja o que seu agente realmente fez
Dois feeds, ambos com escopo de workspace:
- Firewall → Events / Runs — cada chamada de ferramenta que seu agente fez, seu veredito e qual superfície ela atingiu (a ferramenta que ele anunciou, a chamada que o modelo emitiu, um dispatch de MCP ou um destino outbound).
- Guardrails → Matches — cada regra que disparou, como o email sinalizado, agrupado por guardrail e ação.
Restrinja para aplicar enforcement
Uma vez que os feeds parecerem corretos, mude o nível de autonomia para
tight na mesma página Firewall → Posture (papel de Developer).Agora o enforcement está ativo: PII é mascarada antes que o modelo a veja,
segredos são bloqueados das suas requisições e chamadas de shell destrutivo
e egress SSRF são negados. Uma chamada de ferramenta negada volta como
HTTP 400 firewall_blocked; um prompt bloqueado volta como HTTP 400
guardrail_blocked — e um bloqueio não custa cota. Sem mudança na
aplicação — a próxima requisição já é governada.O que você acabou de ativar
| Camada | Com balanced | Com tight |
|---|---|---|
| Guardrails (texto) | PII sinalizada (somente auditoria) | PII mascarada, segredos bloqueados |
| Firewall (ações) | Auditado; shell destrutivo negado | Default-deny; shell destrutivo + egress SSRF negados |
| Visibilidade | Completa — Events + Matches | Completa — Events + Matches |
Ficou muito restritivo?
Cada mudança de autonomia é uma transação com desfazer em um clique, então você pode voltar imediatamente ao estado anterior na página do Firewall (ou pela API de desfazer). Você também pode simplesmente re-aplicar um nível mais suave (balanced ou permissive) a qualquer momento.
Próximos passos
A linha de base de Agentes Seguros
O que cada nível de autonomia define e como simular antes de aplicar.
Modos de enforcement
Observe → shadow → enforce, o rollout seguro em detalhes.
Guardrails
Crie suas próprias regras de conteúdo além da linha de base.
Agent Firewall
Crie listas de permissão de ferramentas, verificações de argumentos e
regras de egress.
