shell.exec, ou um
firewall de ferramenta que nunca nota um número de cartão de crédito saindo num
prompt.
A maneira mais rápida de uma linha de base de segurança de agentes completa é
definir ambos os planos de uma vez. O controle de autonomia do OrcaRouter — a
linha de base Secure Agents — faz exatamente isso: um único interruptor em nível
de workspace que escreve uma política de firewall e um
guardrail juntos, em uma transação, com desfazer em um
clique. Você não cria uma regra para ficar protegido; você escolhe um nível e
ajusta depois.
Os dois planos são complementares, não redundantes. Os Guardrails filtram o
texto de prompt/response (PII, segredos, intenção de jailbreak e injeção); o
firewall governa as ações que um agente toma (quais ferramentas, chamadas
MCP e hosts). Qualquer um sozinho deixa um gap que o outro fecha — veja
Guardrails vs. Firewall.
1. Por que uma linha de base supera duas meias-medidas
Uma run de agente real cruza ambos os planos em uma única requisição. O modelo lê um prompt (texto), decide chamardb.query (ação), e o resultado da ferramenta
alimenta de volta no próximo turno (texto de novo). Proteger apenas um plano deixa
o outro desprotegido:
Apenas firewall
Você nega shell destrutivo, mas um prompt ainda carrega o SSN de um cliente
direto ao modelo — e um argumento de ferramenta ainda vaza uma chave de API.
Apenas guardrails
Você mascara PII em prompts, mas o agente ainda chama
rm -rf, alcança um
endpoint de cloud-metadata, ou faz loop numa ferramenta descontrolada.2. A linha de base de segurança de agentes: três níveis
Cada nível cobre os mesmos dois planos. Escolha um; ele é seu piso, e você adiciona precisão com regras depois.| Nível | Firewall | Guardrails | Observe mode |
|---|---|---|---|
tight | Default-deny; shell destrutivo + ferramentas com formato de fetch negadas | PII Shield + Secrets Blocker aplicados | Off |
balanced | Default-audit; shell destrutivo negado | PII Shield em apenas-audit (sinaliza PII) | Off |
permissive | Sem política de enforcement | Nenhum | On — registra cada chamada como um gap |
O que o `tight` nega no plano de ação
O que o `tight` nega no plano de ação
O
tight carimba o veredito padrão da política de firewall para deny,
depois sobrepõe regras de deny para os nomes de ferramenta shell/exec que
carregam comandos destrutivos — shell.*, bash, cmd, powershell, exec
— e para os nomes de ferramenta com formato de fetch que carregam SSRF —
http_fetch, web_search, fetch_url, request (e suas variantes MCP com
namespace <server>.*). Ele nega esses nomes de ferramenta; ele não
traz uma regra de egress de CIDR ou cloud-metadata. Se você quer negar
169.254.169.254 ou faixas RFC-1918 por destino, crie sua própria regra de
egress — veja Controle de egress.O que o `tight` aplica no plano de conteúdo
O que o `tight` aplica no plano de conteúdo
Tanto o guardrail PII Shield quanto o Secrets Blocker estão ativos e
aplicando. O PII Shield mascara PII na requisição antes de ela chegar ao
modelo; o Secrets Blocker captura credenciais na requisição. Segredos em
argumentos de ferramenta são capturados por este guardrail na requisição — o
firewall não os remove por padrão.
Por que o `balanced` é o início recomendado
Por que o `balanced` é o início recomendado
O
balanced audita tudo (veredito padrão audit) para que você veja o
comportamento real do seu agente, ainda negando a única classe mais destrutiva
— shell destrutivo. O PII Shield roda em modo apenas-audit (sinaliza PII, não
bloqueia). Você obtém uma trilha completa com quase nenhum risco de um block
inesperado, depois aperta a partir da visibilidade em vez de adivinhação.3. Um exemplo concreto: aplique balanced, observe ambos os feeds
Aplicar um nível é uma única ação de console (Firewall → Posture) ou uma chamada de
API. A rota roda sob sua sessão e exige Developer+.
audit_id — guarde-o; é o que você passa para desfazer.
Uma vez aplicada, a linha de base está ao vivo na próxima chamada de ferramenta.
Sem redeploy, sem mudança no código do agente. Agora você observa ambos os planos
de uma vez:
- Firewall → Events — cada veredito de chamada de ferramenta (
audit, as chamadas de shell destrutivo negadas). Veja Log de events. - Guardrails → Matches — cada acerto de política de conteúdo (sinalizações do PII Shield).
balanced escreve uma política de firewall e um guardrail reais e
editáveis (cada um nomeado para o nível), você pode abrir qualquer um depois e
ajustá-lo — a linha de base é um ponto de partida, não um preset travado.
4. Desfazer é uma chamada
Cada mudança de autonomia é reversível a partir de seu snapshot de auditoria, restaurando o estado anterior exato — políticas, regras, guardrails e configurações — não um reset genérico.5. O caminho recomendado
Comece amplo, observe, depois aperte de uma posição de visibilidade:Aplique balanced
Trilha de auditoria completa; apenas shell destrutivo é negado; PII é
sinalizado. Rode seus agentes normalmente por um dia ou dois.
Simule tight
GET /api/workspace/firewall/simulate?level=tight e compare seus denies
contra o que o feed de Events de fato mostrou. Se chamadas com formato de fetch
ou de shell destrutivo são parte do seu fluxo normal, conserte o agente
primeiro.Aplique tight
Uma vez que o simulate não traga surpresas, mude para
tight. Desfazer está a
uma chamada de distância se a produção quebrar.Ajuste com regras
A linha de base é seu piso. Recorte exceções ou adicione controles que ela não
cobre com regras de firewall e
guardrails nomeados. Vincule uma política ou
guardrail específico a uma chave individual para escopo mais fino.
6. Papéis para a linha de base combinada
O controle de autonomia abrange ambos os planos, mas cada ação é restrita por papel.| Ação | Papel mínimo |
|---|---|
| Simular um nível / ver Matches de guardrail / ver Discovered Tools | Member |
| Ver Events e Runs do firewall | Developer+ |
| Aplicar um nível de autonomia | Developer+ |
| Desfazer uma mudança de autonomia | Developer+ |
/api/workspace/firewall/* e
/api/guardrail/*). Apenas as chamadas de relay /v1/* usam uma chave
sk-orca-…; as rotas de chave de gateway são um escopo separado. Veja
Escopo: chaves, políticas, workspaces.
7. Após a linha de base: onde ajustar cada plano
A linha de base te protege nos primeiros 30 minutos. A partir daí, cada plano tem sua própria referência para trabalho de precisão:Visão geral do Firewall
Vereditos, superfícies, predicados de argumento, aprovações — o plano de ação.
Guardrails
Regras de keyword, regex, PII, llm_judge e grounding — o plano de conteúdo.
Shadow mode
Faça o rollout de uma política de firewall apertada em apenas-audit antes de
aplicar.
Linha de base Secure Agents
A página de conceito do controle de autonomia e sua semântica de desfazer.
