Segurança de agentes de IA com OrcaRouter

Um agente de IA não é um chatbot. Ele lê páginas web não confiáveis, chama ferramentas, gasta dinheiro, acessa hosts internos e carrega capacidades encontradas em tempo de execução. Cada uma dessas é uma ação com consequências no mundo real, e a maioria acontece sem um humano no loop. O OrcaRouter fica no caminho entre o seu agente e cada modelo que ele chama, portanto é o único lugar que vê cada requisição e resposta — e cada chamada de ferramenta e destino outbound que o seu agente rota por ele — independentemente de qual provedor a serviu. Esse ponto de estrangulamento é onde o enforcement de zero trust deve ficar. Você o configura uma vez no seu workspace; seu agente continua chamando https://api.orcarouter.ai/v1 exatamente como antes.

1. A ameaça: agentes agem, não apenas conversam

A segurança em nível de prompt foi construída para chat. Ela assume que o modelo produz texto e um humano o lê. Os agentes quebram essa suposição:

Eles ingerem conteúdo não confiável — uma página web, um documento recuperado, um resultado de ferramenta — que pode carregar instruções (injeção de prompt).
Eles chamam ferramentas — shell.exec, db.query, uma API de pagamento — que fazem coisas irreversíveis.
Eles alcançam a rede — buscando URLs que um atacante pode direcionar para serviços internos ou endpoints de exfiltração.
Eles se auto-estendem — instalando skills, plugins e servidores MCP que você nunca revisou.

Nada disso é visível para um filtro de conteúdo que apenas lê o prompt. Proteger um agente significa controlar identidade, conteúdo, ações e a rede, e manter uma trilha de auditoria de tudo isso.

2. A pilha de controle

O OrcaRouter aplica quatro camadas a cada requisição. Cada uma é independente, com escopo de workspace, e se conecta a uma chave de API sem mudança de código.

Chaves com escopo

Identidade de menor agência. Vinculada a modelos específicos, IPs, um limite de gasto, uma expiração e a política exata de guardrail + firewall que se aplica.

Guardrails

Controle de conteúdo. Inspecione prompts e respostas — bloqueie, mascare ou sinalize PII, segredos, injeção e saída insegura.

Agent Firewall

Controle de ações. Crie listas de permissão de ferramentas, valide e sanitize argumentos de chamadas de ferramenta, retenha para aprovação e limite egress e custo.

Auditoria

Atribuição. Cada correspondência, veredito e aprovação é registrado e correlacionado à run do agente que o causou.

Uma requisição flui por elas em ordem: a chave decide se a chamada é sequer permitida e quais políticas se vinculam; os guardrails inspecionam o texto de entrada; o modelo executa; o firewall julga quaisquer chamadas de ferramenta e destinos outbound; os guardrails inspecionam a saída; e cada decisão vai para a trilha de auditoria. Veja A pilha de controle para o caminho completo.

3. Por que “zero trust”

Zero trust significa que nenhuma requisição é confiada por causa de onde veio. Uma chamada de ferramenta é julgada pelo que ela é, não pelo fato de que o seu próprio agente a emitiu — porque o agente pode estar agindo com base em instruções injetadas que ele leu de uma página não confiável. O OrcaRouter impõe isso com default-deny nas ações que importam e listas de permissão explícitas para as que você pretende. Por que agentes de IA precisam de zero trust cobre o modelo em profundidade.

4. Tudo vive no gateway

A pilha de controle é configurada no seu workspace e aplicada no gateway, não na sua aplicação:

Conecte uma vez, aplica-se em todo lugar. Vincule um guardrail e uma política de firewall a uma chave de API; cada chamada que essa chave faz é inspecionada. Edite a política e cada chave conectada muda na próxima requisição.
Sem redeploy, sem mudança de SDK. Seu agente continua emitindo as mesmas chamadas com formato OpenAI. O enforcement é invisível até que uma regra dispare.
Agnóstico a provedor. A mesma política se aplica sobre GPT, Claude, Gemini e o restante — ela inspeciona texto e ações, não a escolha do modelo.

A configuração tem controle de acesso por papel dentro do seu workspace. Leitura de políticas e configurações está aberta a qualquer membro; os feeds de Eventos e Runs do firewall exigem o papel de Developer; criar ou alterar guardrails, políticas de firewall e chaves exige Developer; alterações de compliance e chave de gateway exigem Admin. Ao longo desta documentação, cada etapa de configuração indica o papel necessário.

5. O caminho rápido: um único interruptor

Você não precisa criar regras para ficar protegido. Um nível de autonomia define toda a postura de Firewall e Guardrails do seu workspace em um único passo, com desfazer em um clique:

Nível	O que você obtém
`tight`	Default-deny; bloqueia ferramentas destrutivas e egress SSRF; guardrails de PII + segredos ativos.
`balanced`	Audit por padrão, nega shell destrutivo, sinaliza PII. A postura inicial recomendada.
`permissive`	Nada aplicado, mas tudo observado para que você ainda veja o comportamento do seu agente.

Esta é a Linha de base de Agentes Seguros — comece por aí, observe o que seus agentes realmente fazem e depois restrinja.

6. Para onde ir a seguir

Quickstart

Ative o zero trust em 5 minutos.

Por que zero trust

O modelo de ameaças por trás do design.

Guardrails vs. Firewall

Qual camada intercepta qual ameaça.

O que é sua responsabilidade

O que o gateway protege e o que fica com você.

Por que zero trust

​1. A ameaça: agentes agem, não apenas conversam

​2. A pilha de controle

Chaves com escopo

Guardrails

Agent Firewall

Auditoria

​3. Por que “zero trust”

​4. Tudo vive no gateway

​5. O caminho rápido: um único interruptor

​6. Para onde ir a seguir

Quickstart

Por que zero trust

Guardrails vs. Firewall

O que é sua responsabilidade

1. A ameaça: agentes agem, não apenas conversam

2. A pilha de controle

3. Por que “zero trust”

4. Tudo vive no gateway

5. O caminho rápido: um único interruptor

6. Para onde ir a seguir