Crie seu primeiro guardrail

A maneira mais rápida de colocar uma política de conteúdo na frente de cada chamada de modelo é um guardrail — uma política nomeada, com escopo de workspace, que você escreve uma vez no console e vincula a uma chave de API. O gateway então filtra a entrada da requisição e a saída do modelo já na próxima chamada, sem redeploy e sem mudança de SDK. Esta página percorre o loop de ponta a ponta: criar um guardrail, adicionar uma regra, testá-la no sandbox, vinculá-la a uma chave e enviar uma requisição real. Para a referência completa do motor — cada tipo de regra, campo e rota — veja a referência de Guardrails.

Cada passo aqui é uma ação de console no gateway hospedado (api.orcarouter.ai). A configuração de guardrail roda sob sua própria sessão; apenas a chamada /v1/* final usa uma chave de relay sk-orca-.... Criar e editar guardrails exige Developer+ no workspace.

1. Como adicionar guardrails de LLM em cinco passos

Aqui está o loop inteiro num relance — cada passo é expandido abaixo.

Criar um guardrail

No console, abra Guardrails e clique em New guardrail. Dê um nome (≤ 64 chars), ex.: pii-shield.

Adicionar uma regra

Adicione uma regra PII detection no estágio input com a ação mask.

Testar no sandbox

Abra a aba Test, cole uma amostra e rode a política localmente — sem chamada upstream, sem cota.

Vincular a uma chave

Edite uma chave de API e escolha o guardrail no menu Guardrail. O vínculo vive na chave.

Enviar uma requisição

Chame /v1/chat/completions com essa chave. O gateway aplica a política antes de encaminhar.

2. Crie o guardrail

No console, abra Guardrails e clique em New guardrail. Um guardrail é uma política de conteúdo nomeada, com escopo de workspace — uma lista ordenada de regras que o gateway executa contra a entrada da requisição e a saída do modelo. Nomeie-o pii-shield e salve.

O split-button New guardrail também abre direto em um template. O preset PII Shield é uma única regra pii que mascara email, phone, ssn, credit_card e ip. Aplicar um preset é uma semente, não uma trava — edite-o livremente depois. Navegue pelos templates de preset para mais pontos de partida.

3. Adicione uma regra

Cada regra decide três coisas — o que procurar (um tipo de regra), onde procurar (um estágio) e o que fazer (uma ação). Adicione uma regra:

Tipo: PII detection (pii)
Estágio: Input (a requisição)
Ação: Mask — redigir a correspondência
Entidades: email, phone, ssn

Em uma ação mask, cada correspondência é substituída por uma tag tipada — um email vira [EMAIL], um SSN vira [SSN]. Os sete tipos de regra (keyword, regex, pii, max_chars, external, llm_judge, grounding) e as cinco ações (block, mask, flag, annotate, spotlight) são cobertos na referência. Para este primeiro guardrail, uma regra de mascaramento é suficiente.

O mascaramento está ativo em ambos os estágios. As regras do estágio de input mascaram a requisição antes de o modelo sequer vê-la; as regras do estágio de output mascaram a resposta do modelo — em respostas não-streaming e chunk por chunk nas streaming — antes que o cliente a receba. Block também é aplicado em ambos os estágios. Se você quer gatear as respostas do modelo, defina o estágio da regra como output (ou both); veja Regras do estágio de output.

4. Teste no sandbox

Antes de vincular o guardrail a qualquer chave, prove que ele faz o que você espera. Abra a aba Test dentro do editor, cole uma amostra, escolha o estágio input e execute:

Reply to jane@acme.com please

O sandbox avalia a política atual localmente e retorna o veredito mais o texto renderizado:

Reply to [EMAIL] please

Nada é enviado upstream e nada é medido. Para uma grade A/B contra um corpus de entradas, o Eval harness fica a uma aba de distância.

5. Vincule a uma chave

Um guardrail não faz nada até que uma chave aponte para ele. Duas formas de vincular:

Por chave

Edite uma chave de API e escolha o guardrail no menu Guardrail. Isso define guardrail_id na chave. Veja Vincular a uma chave.

Padrão do workspace

Marque o guardrail como o padrão do workspace para que qualquer chave sem um vínculo explícito o herde. Veja Padrão de conta.

A resolução é explícita e previsível:

Ordem	O que se aplica
1	O `guardrail_id` explícito da chave (se existe e está habilitado).
2	O padrão do workspace (se a chave não tem vínculo).
3	Nenhum — a requisição é byte-idêntica à de um workspace sem política.

Um vínculo explícito nunca cai silenciosamente para outro. Desabilitar um guardrail vinculado é o botão de desligar — ele não cai para o padrão do workspace. (As políticas de firewall diferem aqui; veja Guardrails vs. firewall.)

6. Envie uma requisição

Usando uma chave vinculada a pii-shield, chame o OrcaRouter exatamente como antes — sem mudança de SDK, sem novos headers:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

O gateway mascara o email para [EMAIL] antes de encaminhar — o modelo upstream nunca vê o endereço. Troque a ação da regra para block e a próxima requisição que contiver a entidade é rejeitada com HTTP 400 guardrail_blocked. Uma requisição bloqueada não custa cota (um block de input dispara antes da medição; um block de output reembolsa a cota pré-consumida) e é marcada como skip-retry. Veja o erro guardrail_blocked para o formato completo da resposta.

7. Para onde ir a seguir

Veja o que disparou

Toda regra que dispara registra um match — tipo, ação, estágio e uma string de detalhe. A substring correspondente é registrada apenas quando Log raw content está ligado (desligado por padrão). Veja o Feed de matches e Logging e privacidade.

Mascare além do básico

A detecção de PII cobre email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (mais entidades regionais), e você pode escrever as suas próprias. Veja PII Shield, Entidades de PII personalizadas e Formatos de mascaramento.

Pegue segredos e injeção

Adicione um bloqueador de segredos ou o preset básico de Prompt-Injection — este último sinaliza frases comuns de jailbreak para revisão. Para pegar a intenção de injeção semanticamente em vez de por frase, adicione uma regra llm_judge ao lado dele.

Reverta uma mudança

Cada edição escreve uma linha de histórico de versões. Abra History para fazer o diff e reverter. Veja Versionamento.

Gateie chamadas de ferramenta, não só texto

Guardrails filtram conteúdo. Para governar as chamadas de ferramenta de um agente — negar ações destrutivas, limitar custo, exigir aprovação — use o Firewall. Comece com Segurança de agentes de IA e a ameaça de chamadas de ferramenta perigosas.

Leia a referência de Guardrails para o motor completo — campos de regra, fornecedores externos, o eval harness e a API completa — ou o quickstart de segurança para conectar guardrails e firewall em uma linha de base de agente.

​1. Como adicionar guardrails de LLM em cinco passos

​2. Crie o guardrail

​3. Adicione uma regra

​4. Teste no sandbox

​5. Vincule a uma chave

Por chave

Padrão do workspace

​6. Envie uma requisição

​7. Para onde ir a seguir

1. Como adicionar guardrails de LLM em cinco passos

2. Crie o guardrail

3. Adicione uma regra

4. Teste no sandbox

5. Vincule a uma chave

6. Envie uma requisição

7. Para onde ir a seguir