Cada passo aqui é uma ação de console no gateway hospedado
(
api.orcarouter.ai). A configuração de guardrail roda sob sua própria
sessão; apenas a chamada /v1/* final usa uma chave de relay sk-orca-....
Criar e editar guardrails exige Developer+ no workspace.1. Como adicionar guardrails de LLM em cinco passos
Aqui está o loop inteiro num relance — cada passo é expandido abaixo.Criar um guardrail
No console, abra Guardrails e clique em New guardrail. Dê um nome
(≤ 64 chars), ex.:
pii-shield.Testar no sandbox
Abra a aba Test, cole uma amostra e rode a política localmente — sem
chamada upstream, sem cota.
Vincular a uma chave
Edite uma chave de API e escolha o guardrail no menu Guardrail. O
vínculo vive na chave.
2. Crie o guardrail
No console, abra Guardrails e clique em New guardrail. Um guardrail é uma política de conteúdo nomeada, com escopo de workspace — uma lista ordenada de regras que o gateway executa contra a entrada da requisição e a saída do modelo. Nomeie-opii-shield e salve.
3. Adicione uma regra
Cada regra decide três coisas — o que procurar (um tipo de regra), onde procurar (um estágio) e o que fazer (uma ação). Adicione uma regra:- Tipo: PII detection (
pii) - Estágio: Input (a requisição)
- Ação: Mask — redigir a correspondência
- Entidades:
email,phone,ssn
[EMAIL], um SSN vira [SSN]. Os sete tipos de regra
(keyword, regex, pii, max_chars, external, llm_judge,
grounding) e as cinco ações (block, mask, flag, annotate,
spotlight) são cobertos na
referência. Para este primeiro
guardrail, uma regra de mascaramento é suficiente.
O mascaramento está ativo em ambos os estágios. As regras do estágio de
input mascaram a requisição antes de o modelo sequer vê-la; as regras do
estágio de output mascaram a resposta do modelo — em respostas não-streaming
e chunk por chunk nas streaming — antes que o cliente a receba. Block
também é aplicado em ambos os estágios. Se você quer gatear as respostas do
modelo, defina o estágio da regra como
output (ou both); veja
Regras do estágio de output.4. Teste no sandbox
Antes de vincular o guardrail a qualquer chave, prove que ele faz o que você espera. Abra a aba Test dentro do editor, cole uma amostra, escolha o estágioinput e execute:
5. Vincule a uma chave
Um guardrail não faz nada até que uma chave aponte para ele. Duas formas de vincular:Por chave
Edite uma chave de API e escolha o guardrail no menu Guardrail. Isso
define
guardrail_id na chave. Veja
Vincular a uma chave.Padrão do workspace
Marque o guardrail como o padrão do workspace para que qualquer chave
sem um vínculo explícito o herde. Veja
Padrão de conta.
| Ordem | O que se aplica |
|---|---|
| 1 | O guardrail_id explícito da chave (se existe e está habilitado). |
| 2 | O padrão do workspace (se a chave não tem vínculo). |
| 3 | Nenhum — a requisição é byte-idêntica à de um workspace sem política. |
6. Envie uma requisição
Usando uma chave vinculada apii-shield, chame o OrcaRouter exatamente como
antes — sem mudança de SDK, sem novos headers:
[EMAIL] antes de encaminhar — o modelo
upstream nunca vê o endereço. Troque a ação da regra para block e a
próxima requisição que contiver a entidade é rejeitada com HTTP 400
guardrail_blocked. Uma requisição bloqueada não custa cota (um block de
input dispara antes da medição; um block de output reembolsa a cota
pré-consumida) e é marcada como skip-retry. Veja o
erro guardrail_blocked
para o formato completo da resposta.
7. Para onde ir a seguir
Veja o que disparou
Veja o que disparou
Toda regra que dispara registra um match — tipo, ação, estágio e uma
string de detalhe. A substring correspondente é registrada apenas quando
Log raw content está ligado (desligado por padrão). Veja o
Feed de matches e
Logging e privacidade.
Mascare além do básico
Mascare além do básico
A detecção de PII cobre
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address (mais entidades regionais), e você pode escrever as
suas próprias. Veja PII Shield,
Entidades de PII personalizadas e
Formatos de mascaramento.Pegue segredos e injeção
Pegue segredos e injeção
Adicione um bloqueador de segredos ou o
preset básico de Prompt-Injection
— este último sinaliza frases comuns de jailbreak para revisão. Para
pegar a intenção de injeção semanticamente em vez de por frase, adicione
uma regra
llm_judge ao lado dele.Reverta uma mudança
Reverta uma mudança
Cada edição escreve uma linha de histórico de versões. Abra History
para fazer o diff e reverter. Veja
Versionamento.
Gateie chamadas de ferramenta, não só texto
Gateie chamadas de ferramenta, não só texto
Guardrails filtram conteúdo. Para governar as chamadas de ferramenta de
um agente — negar ações destrutivas, limitar custo, exigir aprovação —
use o Firewall. Comece com
Segurança de agentes de IA e a
ameaça de chamadas de ferramenta perigosas.
