Saltar para o conteúdo principal
A maneira mais rápida de colocar uma política de conteúdo na frente de cada chamada de modelo é um guardrail — uma política nomeada, com escopo de workspace, que você escreve uma vez no console e vincula a uma chave de API. O gateway então filtra a entrada da requisição e a saída do modelo já na próxima chamada, sem redeploy e sem mudança de SDK. Esta página percorre o loop de ponta a ponta: criar um guardrail, adicionar uma regra, testá-la no sandbox, vinculá-la a uma chave e enviar uma requisição real. Para a referência completa do motor — cada tipo de regra, campo e rota — veja a referência de Guardrails.
Cada passo aqui é uma ação de console no gateway hospedado (api.orcarouter.ai). A configuração de guardrail roda sob sua própria sessão; apenas a chamada /v1/* final usa uma chave de relay sk-orca-.... Criar e editar guardrails exige Developer+ no workspace.

1. Como adicionar guardrails de LLM em cinco passos

Aqui está o loop inteiro num relance — cada passo é expandido abaixo.
1

Criar um guardrail

No console, abra Guardrails e clique em New guardrail. Dê um nome (≤ 64 chars), ex.: pii-shield.
2

Adicionar uma regra

Adicione uma regra PII detection no estágio input com a ação mask.
3

Testar no sandbox

Abra a aba Test, cole uma amostra e rode a política localmente — sem chamada upstream, sem cota.
4

Vincular a uma chave

Edite uma chave de API e escolha o guardrail no menu Guardrail. O vínculo vive na chave.
5

Enviar uma requisição

Chame /v1/chat/completions com essa chave. O gateway aplica a política antes de encaminhar.

2. Crie o guardrail

No console, abra Guardrails e clique em New guardrail. Um guardrail é uma política de conteúdo nomeada, com escopo de workspace — uma lista ordenada de regras que o gateway executa contra a entrada da requisição e a saída do modelo. Nomeie-o pii-shield e salve.
O split-button New guardrail também abre direto em um template. O preset PII Shield é uma única regra pii que mascara email, phone, ssn, credit_card e ip. Aplicar um preset é uma semente, não uma trava — edite-o livremente depois. Navegue pelos templates de preset para mais pontos de partida.

3. Adicione uma regra

Cada regra decide três coisas — o que procurar (um tipo de regra), onde procurar (um estágio) e o que fazer (uma ação). Adicione uma regra:
  • Tipo: PII detection (pii)
  • Estágio: Input (a requisição)
  • Ação: Mask — redigir a correspondência
  • Entidades: email, phone, ssn
Em uma ação mask, cada correspondência é substituída por uma tag tipada — um email vira [EMAIL], um SSN vira [SSN]. Os sete tipos de regra (keyword, regex, pii, max_chars, external, llm_judge, grounding) e as cinco ações (block, mask, flag, annotate, spotlight) são cobertos na referência. Para este primeiro guardrail, uma regra de mascaramento é suficiente.
O mascaramento está ativo em ambos os estágios. As regras do estágio de input mascaram a requisição antes de o modelo sequer vê-la; as regras do estágio de output mascaram a resposta do modelo — em respostas não-streaming e chunk por chunk nas streaming — antes que o cliente a receba. Block também é aplicado em ambos os estágios. Se você quer gatear as respostas do modelo, defina o estágio da regra como output (ou both); veja Regras do estágio de output.

4. Teste no sandbox

Antes de vincular o guardrail a qualquer chave, prove que ele faz o que você espera. Abra a aba Test dentro do editor, cole uma amostra, escolha o estágio input e execute:
Reply to jane@acme.com please
O sandbox avalia a política atual localmente e retorna o veredito mais o texto renderizado:
Reply to [EMAIL] please
Nada é enviado upstream e nada é medido. Para uma grade A/B contra um corpus de entradas, o Eval harness fica a uma aba de distância.

5. Vincule a uma chave

Um guardrail não faz nada até que uma chave aponte para ele. Duas formas de vincular:

Por chave

Edite uma chave de API e escolha o guardrail no menu Guardrail. Isso define guardrail_id na chave. Veja Vincular a uma chave.

Padrão do workspace

Marque o guardrail como o padrão do workspace para que qualquer chave sem um vínculo explícito o herde. Veja Padrão de conta.
A resolução é explícita e previsível:
OrdemO que se aplica
1O guardrail_id explícito da chave (se existe e está habilitado).
2O padrão do workspace (se a chave não tem vínculo).
3Nenhum — a requisição é byte-idêntica à de um workspace sem política.
Um vínculo explícito nunca cai silenciosamente para outro. Desabilitar um guardrail vinculado é o botão de desligar — ele não cai para o padrão do workspace. (As políticas de firewall diferem aqui; veja Guardrails vs. firewall.)

6. Envie uma requisição

Usando uma chave vinculada a pii-shield, chame o OrcaRouter exatamente como antes — sem mudança de SDK, sem novos headers:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'
O gateway mascara o email para [EMAIL] antes de encaminhar — o modelo upstream nunca vê o endereço. Troque a ação da regra para block e a próxima requisição que contiver a entidade é rejeitada com HTTP 400 guardrail_blocked. Uma requisição bloqueada não custa cota (um block de input dispara antes da medição; um block de output reembolsa a cota pré-consumida) e é marcada como skip-retry. Veja o erro guardrail_blocked para o formato completo da resposta.

7. Para onde ir a seguir

Toda regra que dispara registra um match — tipo, ação, estágio e uma string de detalhe. A substring correspondente é registrada apenas quando Log raw content está ligado (desligado por padrão). Veja o Feed de matches e Logging e privacidade.
A detecção de PII cobre email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (mais entidades regionais), e você pode escrever as suas próprias. Veja PII Shield, Entidades de PII personalizadas e Formatos de mascaramento.
Adicione um bloqueador de segredos ou o preset básico de Prompt-Injection — este último sinaliza frases comuns de jailbreak para revisão. Para pegar a intenção de injeção semanticamente em vez de por frase, adicione uma regra llm_judge ao lado dele.
Cada edição escreve uma linha de histórico de versões. Abra History para fazer o diff e reverter. Veja Versionamento.
Guardrails filtram conteúdo. Para governar as chamadas de ferramenta de um agente — negar ações destrutivas, limitar custo, exigir aprovação — use o Firewall. Comece com Segurança de agentes de IA e a ameaça de chamadas de ferramenta perigosas.
Leia a referência de Guardrails para o motor completo — campos de regra, fornecedores externos, o eval harness e a API completa — ou o quickstart de segurança para conectar guardrails e firewall em uma linha de base de agente.