Tudo aqui é somente leitura ou sandbox — nenhum block visível ao usuário,
nenhum tráfego de produção afetado. (Regras de keyword, regex e PII rodam
inteiramente local; uma regra
llm_judge ainda chama o modelo configurado,
então um eval sobre uma política de judge de fato faz essa chamada.) O ponto é
quebrar coisas antes do lançamento, nos seus termos.1. Como fazer red team em um agente de IA antes do lançamento
Um red team pré-lançamento responde a três perguntas, e o OrcaRouter tem uma ferramenta para cada:Meu guardrail captura ataques?
Rode o harness de Eval do guardrail contra corpora adversariais
embutidos e leia precision / recall / F1.
O que meu firewall quebraria?
Ligue o shadow mode e observe quais chamadas de ferramenta reais
seriam negadas — sem negar nenhuma delas ainda.
Uma postura mais apertada é segura?
Simule um nível de autonomia para pré-visualizar exatamente o que ele
mudaria contra o seu tráfego antes de aplicá-lo.
2. Pontue seu guardrail contra corpora adversariais
A maneira mais rápida de saber se uma política de conteúdo sobrevive ao contato com um atacante é jogar um corpus de ataques conhecidos nela e ler o score. A aba Eval do editor de guardrail faz exatamente isso: ela reproduz cada amostra de um corpus através da sua política atual e compara o veredito com o resultado esperado de cada amostra — reproduzindo o corpus localmente contra as suas regras, nunca contra tráfego ao vivo. O OrcaRouter entrega corpora de red-team embutidos para que você não precise buscar os seus próprios. Entre eles:| Corpus | O que é |
|---|---|
advbench_harmful_behaviors | O conjunto-alvo canônico de adversarial-suffix — cada linha é uma requisição insegura que um guardrail deveria bloquear. |
anthropic_hh_redteam | Transcrições reais de red-team humano multi-turno contra um assistente. |
deepset_prompt_injections | Injeções de prompt vs requisições benignas rotuladas — uma baseline de precision/recall para um block no stage input. |
databricks_dolly_benign | Uma baseline puramente benigna: uma política estrita demais não deveria bloquear nenhuma delas. |
deepset_prompt_injections:
- TP / FP / FN / TN — verdadeiros/falsos positivos e negativos, onde um “falso positivo” inclui capturar um ataque com a classe de ação errada (ex.: mascarar quando você esperava um block).
- Precision / Recall / F1 — os números de destaque. Recall baixo significa que ataques escapam; precision baixo significa que você está bloqueando tráfego benigno.
Onde vive a defesa contra injeção de prompt. O preset embutido
Prompt-Injection Basics é uma regra de keyword na ação flag — ela exibe
frases comuns de jailbreak para revisão sem bloquear o usuário. Para intenção
semântica de injeção que nenhuma lista de keywords captura, adicione uma regra
llm_judge e faça red-team nela da mesma forma: faça eval dela contra
deepset_prompt_injections e anthropic_hh_redteam e leia o F1. Veja a
referência de guardrail.3. Coloque o firewall em shadow mode contra tráfego real
Um eval de guardrail testa texto contra um corpus fixo. Seu firewall, por contraste, precisa ser testado contra a realidade bagunçada do que o seu agente realmente faz — e a maneira mais segura de fazer isso antes do lançamento é o shadow mode. O shadow mode é uma flag por política que faz o firewall avaliar e registrar cada chamada de ferramenta exatamente como faria em produção, mas rebaixar todo veredito de enforcement paraaudit. Um deny vira uma linha de audit cujo
motivo recebe o prefixo [shadow] would …. Nada é bloqueado. Nada quebra. Mas o
feed de Events agora lhe mostra a lista precisa de chamadas que sua política
teria rejeitado.
Este é o red team de firewall: crie sua política pretendida mais rígida, ligue o
shadow mode, rode seu agente por um ensaio de lançamento realista, depois leia os
eventos [shadow] would ….
Crie a política, depois faça shadow dela
Crie a política, depois faça shadow dela
Construa sua política de enforcement no console (Developer+) — para um
dry-run de lançamento, defina
default_verdict como audit e adicione as
regras de deny que você pretende lançar. Ligue o shadow mode. Toda a
política agora registra sem aplicar enforcement.Exercite o agente como se fosse o dia do lançamento
Exercite o agente como se fosse o dia do lançamento
Rode os fluxos reais do seu agente contra o gateway com uma chave vinculada à
política em shadow. Cada chamada de ferramenta — inbound, response, dispatch
de MCP, egress — é avaliada e registrada.
Leia a lista de would-block
Leia a lista de would-block
Abra Firewall → Events (Developer+) e filtre pelos motivos
[shadow] would …. Cada um é uma chamada que sua política teria negado em
produção. Confirme que cada entrada é uma chamada que você quer negada — e
que nada legítimo está na lista.Desligue o shadow para ir ao ar
Desligue o shadow para ir ao ar
Assim que a lista de would-block estiver limpa, desligue o shadow mode. A
próxima chamada correspondente é aplicada de verdade — sem nenhuma outra
mudança.
4. Simule uma postura mais apertada antes de se comprometer
O terceiro movimento de red-team é o mais barato: antes de aplicar um nível de autonomia mais rígido, simule-o. O simulador pré-visualiza o que aplicartight (ou qualquer
nível) mudaria contra o tráfego recente do seu workspace — quantas chamadas
virariam deny — sem escrever uma única linha de política.
tight?” antes do lançamento: se a prévia mostra uma
parede de negações em chamadas das quais seu agente depende, você tem regras
para suavizar antes do go-live, não um incidente depois dele.
O Simulate é somente prévia — ele nunca muta suas políticas. Aplicar um nível de
autonomia é uma ação separada, Developer+, e é uma transação com desfazer em
um clique se o resultado ao vivo ainda lhe surpreender.
5. O checklist de red-team pré-lançamento
Junte os três passes e você tem um portão de lançamento:| Passe | Ferramenta | Verde quando |
|---|---|---|
| Política de conteúdo | Eval de guardrail vs. corpora de ataque + benigno | Recall alto em ataques, nenhum block em benigno |
| Política de ação | Shadow mode de firewall vs. tráfego de ensaio | Cada [shadow] would … é intencional |
| Cobertura | Observe mode + Discovered tools | Nenhuma ferramenta surpresa fica num gap de cobertura |
| Postura | Simule o nível de autonomia alvo | A prévia corresponde ao que você espera |
https://api.orcarouter.ai/v1/...
exatamente como antes.
6. Próximos passos
Modos de enforcement
Observe → shadow → enforce, o rollout seguro que esta receita ensaia.
A linha de base de Agentes Seguros
O que cada nível de autonomia define — e como o
simulate o pré-visualiza.Injeção de prompt
A ameaça contra a qual seu eval de guardrail está pontuando.
Vá ao ar
O cutover de produção depois que o red team passa.
