rm -rf / que o modelo
ecoa em uma ferramenta de shell, um UNION SELECT que ele emite para um
runner de SQL executar. Uma política de conteúdo que só pensa em PII ou
segredos perde os quatro. A categoria de preset Agent existe exatamente
para esta forma — regras regex determinísticas que bloqueiam a
requisição ou resposta antes que uma ferramenta downstream sequer aja sobre
ela.
Este é um destino focado no caso de uso agêntico. Para o motor de guardrail
completo — cada tipo de regra, campo, estágio e rota — veja a
referência de Guardrails.
1. Por que agent guardrails são uma superfície distinta
Um guardrail filtra conteúdo — o texto na requisição e o texto na resposta. Para um agente, esse texto se torna uma ação: a URL é buscada, o markdown é renderizado, a linha de shell é executada, o SQL é executado. Então o mesmo motorblock / mask que você usa para PII faz dupla função aqui — ele detém
um payload no gateway antes que a camada de ferramentas do agente possa
transformá-lo em um efeito colateral.
A categoria Agent traz quatro presets, cada um uma regra regex com ação
block, distribuídos pelos dois estágios:
URL Filter — input, block
URL Filter — input, block
Bloqueia qualquer URL
http(s) na requisição. Use-o para fluxos de
agente onde URLs outbound devem estar em allowlist em vez de abertas. O
padrão semeado corresponde a qualquer URL; edite o regex para permitir
domínios específicos.Markdown Image Block — output, block
Markdown Image Block — output, block
Bloqueia embeds de imagem markdown (
) na resposta do
modelo. Defende contra exfiltração por renderização de imagem em clientes
que carregam imagens remotas automaticamente — um canal clássico de
vazamento de dados onde uma URL de imagem renderizada contrabandeia dados
para fora.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Bloqueia padrões óbvios de shell-injection na requisição (
rm -rf /,
curl … | sh, wget … | bash, escalação sudo). Use-o para fluxos de
agente que podem encaminhar input do usuário para uma ferramenta de shell.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Bloqueia respostas do modelo que carregam payloads clássicos de
SQL-injection (
UNION SELECT, OR 1=1, DROP TABLE, terminadores de
comentário). Defesa em profundidade para ferramentas que auto-executam SQL
que o modelo produziu.Dois presets filtram input, dois filtram output. URL Filter e Tool Call
Shell Block disparam na requisição — antes de o modelo rodar, antes de
qualquer cota ser medida. Markdown Image Block e SQL Injection in Output
disparam na resposta — depois que o modelo responde, antes de o conteúdo
chegar ao seu cliente ou à sua camada de ferramentas. Saber em qual estágio um
risco vive é todo o jogo; veja
Estágio de input e
Estágio de output.
2. Aplique um agent guardrail no console
Cada passo aqui é uma ação de console no gateway hospedado sob sua própria sessão. Criar e editar guardrails exige Developer+ no workspace. Apenas a chamada final/v1/* usa uma chave de relay sk-orca-... — o guardrail em si
é configurado inteiramente no console.
Abra o template
No console, abra Guardrails, clique no split-button New guardrail
e escolha um preset na categoria de template Agent — ex.: Markdown
Image Block. Ele semeia a única regra de block
regex no estágio certo.Nomeie e salve
Dê a ele um nome (≤ 64 chars), ex.:
agent-rails, e salve. Um preset é
uma semente, não uma trava — adicione as outras três regras Agent ou edite
o regex livremente depois (veja §4).Teste-o no sandbox
Abra a aba Test dentro do editor, cole uma amostra, escolha o estágio
correspondente e rode a política atual localmente — sem chamada
upstream, sem cota (veja §3).
Vincule uma chave
Edite uma chave de API e escolha
agent-rails no menu Guardrail
(define guardrail_id na chave), ou marque-o como padrão do
workspace. Veja Vincular a uma chave
e Padrão de conta.3. Prove antes de vincular
Prove que a regra dispara antes que qualquer chave aponte para ela. Abra a aba Test, escolha o estágio output e cole uma resposta que uma página envenenada por atacante poderia ter induzido o modelo a emitir:4. Componha e ajuste as regras
Os quatro presets são sementes. O movimento comum é combiná-los em um único guardrailagent-rails e apertar cada regex à sua stack:
Allowlist de URLs
Comece a partir do URL Filter, depois edite o
regex para que
bloqueie cada URL exceto seus domínios sancionados — inverta a
correspondência para uma allowlist em vez de um block geral.Escreva seus próprios detectores
Adicione uma regra
regex para
qualquer forma de payload com que suas ferramentas se importem — padrões
RE2, tempo linear, sem backreferences. Padrões compilam uma vez e são
cacheados entre requisições.5. Como é um block
Todo preset Agent usa a ação block. Uma requisição bloqueada retorna HTTP 400 com o código de erroguardrail_blocked e uma mensagem nomeando
o guardrail e a regra que disparou:
guardrail_blocked.
6. Guardrails são conteúdo; o firewall são chamadas de ferramenta
Agent guardrails são uma primeira camada forte, mas raciocinam sobre strings, não semântica de ferramenta. Eles bloqueiam uma linha de shell no conteúdo — não entendem que o modelo emitiu umtool_call estruturado
para uma ferramenta destrutiva, ou que uma requisição outbound está indo para
um IP de metadados.
Essa camada de chamada de ferramenta é o Firewall:
ele avalia os tool_calls emitidos pelo modelo, o tools/call de MCP e o
egress outbound com vereditos como allow / audit / deny /
pending_approval. Os dois se compõem — guardrails filtram o texto, o
firewall governa a ação.
Firewall
Governe as chamadas de ferramenta emitidas pelo modelo, chamadas MCP e
egress com vereditos allow / audit / deny / approval.
Guardrails vs. Firewall
Quando recorrer a um guardrail de conteúdo vs. um firewall de chamada de
ferramenta — e como rodar ambos.
Segurança de agentes de IA
A pilha de controle completa de agente: conteúdo, ferramentas, MCP e
egress.
Agência excessiva
A ameaça que estes rails tratam — um agente que faz mais do que deveria.
7. Veja o que disparou
Toda regra que dispara registra um match — tipo de regra, ação, estágio e uma string de detalhe — exibido no feed Matches do workspace. A substring correspondente em si é registrada apenas quando Log raw content está ligado, que está desligado por padrão. Agrupe e filtre o feed por guardrail, tipo de regra e ação para observar a taxa de acerto da sua regra de agente e ajustar falsos positivos. Veja Feed de matches, Logging e privacidade e Ajustar falsos positivos.8. Para onde ir a seguir
Regras de estágio de output
Como a filtragem de resposta funciona para Markdown Image Block e SQL
Injection in Output.
Detectores regex
Escreva seus próprios padrões RE2 para estender as regras Agent.
Exfiltração de dados
O canal de exfil que o Markdown Image Block fecha.
Chamadas de ferramenta perigosas
Por que um rail de conteúdo sozinho não basta — combine-o com o firewall.
