regex permite que você corresponda essa forma em
cada chamada e então a bloqueie, mascare ou sinalize, antes de o
prompt chegar ao modelo e antes de a resposta chegar ao seu usuário.
Este é um destino focado no caso de uso de padrão estruturado. Para o motor de
guardrail completo — cada tipo de regra, campo e rota — veja a
referência de Guardrails.
api.orcarouter.ai). Você escreve o guardrail sob sua própria sessão; apenas
a chamada final /v1/* usa uma chave de relay sk-orca-.... Criar e editar
guardrails exige Developer+ no workspace.1. Quando você precisa de um controle de regex guardrail llm
Uma regraregex é a ferramenta certa quando a coisa que você quer pegar tem
estrutura que uma denylist literal não consegue expressar mas não é uma
identidade padrão que o detector pii
já cobre.
Códigos estruturados
Tokens em formato definido
Padrões de vazamento de output
Verificações baratas e determinísticas
2. RE2 — tempo linear, sem backreferences
Opattern de uma regra regex é um regex Go RE2. RE2 é o motor que faz
uma regra regex ser segura para rodar em cada requisição:
Correspondência em tempo linear — sem backtracking catastrófico
Correspondência em tempo linear — sem backtracking catastrófico
Sem backreferences, sem lookaround
Sem backreferences, sem lookaround
\1), lookahead ou lookbehind. Se você
está portando um padrão PCRE que depende disso, reescreva-o sem eles.
Classes de caractere, âncoras, quantificadores, alternação e grupos não
capturadores funcionam todos como esperado.Insensibilidade a maiúsculas e flags vão no padrão
Insensibilidade a maiúsculas e flags vão no padrão
(?i) para sem distinção entre maiúsculas e minúsculas, (?m)
para multilinha. Exemplo: (?i)\bproject-orca\b.O padrão deve compilar — verificado ao salvar
O padrão deve compilar — verificado ao salvar
3. Anatomia de uma regra regex
Uma regraregex é a menor regra do motor depois de keyword: um padrão, um
estágio e uma ação.
| Campo | O que faz |
|---|---|
pattern | Um regex Go RE2 (tempo linear, sem backreferences). Deve compilar. |
stage | input (requisição), output (resposta) ou both. |
action | block, mask ou flag. |
[REDACTED] — uma regra regex não é tipada, então não
renderiza uma tag por entidade como [EMAIL]. Se você quer uma tag tipada ou
um token de substituição personalizado, modele a forma como uma
entidade PII personalizada em
vez disso.
4. Um exemplo concreto
Suponha que seus números de pedido internos sejamORD- seguido de oito
dígitos, e você nunca quer um ecoado de volta na resposta de um modelo.
Adicione uma única regra regex no estágio output:
Crie um guardrail
order-id-filter.Adicione uma regra regex
ORD-\d{8}. Salve.Teste-a no sandbox
output e rode a
política atual localmente — sem chamada upstream, sem cota:Vincule uma chave
order-id-filter no menu Guardrail
(define guardrail_id na chave), ou marque o guardrail como padrão do
workspace. Veja
Vincular a uma chave e
Padrão de conta.5. Cobertura de estágio e streaming
A ação que você escolhe interage com o fato de a resposta fazer streaming:| Ação | Não-streaming | Streaming |
|---|---|---|
block (output) | Aplicado | Aplicado — scanner corta o stream |
mask (output) | Aplicado | Aplicado — scanner reescreve o buffer |
6. Escolha uma ação
Uma regraregex escolhe uma ação por regra:
Block — rejeitar a chamada
Block — rejeitar a chamada
guardrail_blocked. Uma requisição bloqueada não custa cota — um
block no estágio de input dispara antes da medição; um block no estágio de
output reembolsa a cota pré-consumida — e é marcada como skip-retry.
Veja o
erro guardrail_blocked.Mask — redigir a correspondência
Mask — redigir a correspondência
[REDACTED] e a requisição
continua com o texto sanitizado — o modelo upstream (estágio de input) ou
seu usuário (estágio de output) nunca vê o original. Veja
Ações.Flag — apenas observar
Flag — apenas observar
flag, observe o feed de Matches,
depois promova para mask/block quando você confiar nele.Annotate — anexar uma nota
Annotate — anexar uma nota
Spotlight — envolver como dados não confiáveis
Spotlight — envolver como dados não confiáveis
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) que instruem o modelo a
tratar o texto como dados, não instruções — uma mitigação de
prompt-injection. Veja Ações.7. Veja o que disparou — e ajuste a precisão
Toda regra que dispara registra um match — tipo de regra, ação, estágio e uma string de detalhe — no feed Matches do workspace. Um padrão amplo demais é a armadilha clássica de regex —\d{8} corresponde a
toda sequência de oito dígitos, não apenas seus números de pedido. Ancore-o
(um prefixo fixo como ORD-, limites de palavra \b), observe o feed de
Matches e marque falsos positivos para apertar conforme avança. Para uma grade
A/B contra um corpus — provando que um padrão pega o que deveria sem sinalizar
tráfego benigno — o Eval harness fica
uma aba ao lado. Veja
Ajustar falsos positivos.
8. Para onde ir a seguir
Entidades PII personalizadas
[REDACTED] simples.Palavras sensíveis
Ações
Referência de Guardrails
regex governa conteúdo. Para governar as chamadas de
ferramenta de um agente — negar ações destrutivas, redigir argumentos de
chamada de ferramenta, exigir aprovação — use o
Firewall e seus
matchers de regra. Para políticas difusas que
nenhum padrão consegue expressar (toxicidade, fora de tópico, intenção de
injeção), uma regra llm_judge roda uma verificação semântica contra um
modelo do workspace. Para ver onde regex se encaixa no design geral, leia
Guardrails vs Firewall.