1. Guardrails de input para apps de LLM, antes do modelo
Toda regra de guardrail carrega um estágio —input, output ou
both. Uma regra input roda contra o texto da requisição no momento em
que ele chega, a caminho do modelo upstream:
As regras de input filtram a requisição do chamador. Se você também usa
prompts do registro, a mensagem de sistema injetada
é adicionada depois, no roteamento — então as regras de input veem as
mensagens que sua app enviou, não o prompt injetado. As regras de output
filtram a resposta de qualquer forma.
2. O que você pode rodar no estágio de input
Qualquer tipo de regra pode rodar eminput. As razões mais comuns para
gatear a requisição antes do modelo:
Mascarar PII no prompt
Uma regra
pii com a ação mask reescreve entidades para tags
tipadas (jane@acme.com → [EMAIL]) para que o modelo upstream nunca
veja o valor bruto. Veja PII Shield.Bloquear segredos antes que vazem
Uma requisição que carrega uma chave de API ou credencial de nuvem é
rejeitada na porta — pré-medição, sem chamada upstream. Veja
Bloquear segredos.
Deter tentativas de injeção
O preset básico de Prompt-Injection combina detectores de keyword/regex
com uma regra
llm_judge para intenção de injeção. Veja
Prompt injection.Limitar o tamanho do prompt
Uma regra
max_chars rejeita um prompt grande demais antes que ele
cobre qualquer token. Veja
Cost guardrails.keyword, regex, pii, max_chars,
external, llm_judge, grounding — e as cinco ações block, mask,
flag, annotate e spotlight todas se aplicam aqui. (spotlight
envolve o texto não confiável correspondente em delimitadores para que o
modelo o trate como dados, não instruções — uma defesa de prompt-injection
no estágio de input; annotate anexa uma nota sem mudar o tráfego.) Uma
exceção que vale conhecer:
grounding mede a
resposta em relação às fontes recuperadas, então é inerentemente uma
verificação de estágio de output. Todo o resto se encaixa naturalmente no
estágio de input.
3. Um exemplo concreto
Escreva a regra no console (sob sua própria sessão — config de guardrail precisa de Developer+), não com uma chave de relay. Adicione uma única regrainput a um guardrail chamado secrets-shield:
guardrail_id, ou marque-o como
padrão do workspace — veja
Vincular a uma chave), depois chame
o gateway com essa chave de relay sk-orca-...:
guardrail_blocked antes de o gateway encaminhar qualquer coisa upstream:
guardrail_blocked
para o formato completo da resposta.
4. Por que um block de input não custa cota
Esta é a vantagem estrutural de pegar coisas no caminho de entrada. Um block no estágio de input fica antes do pré-consumo, então:| Propriedade | Block no estágio de input |
|---|---|
| Status HTTP | 400 guardrail_blocked |
| Cota cobrada | Nenhuma — dispara antes da medição |
| Chamada upstream | Nunca feita |
| Retry | Marcada skip-retry — reexecutar bloqueia de novo |
Como a requisição nunca chega a um canal, um block de input é marcado como
skip-retry: reexecutar o mesmo prompt contra outro canal apenas
bloquearia de novo e desperdiçaria esforço. O estágio de output difere — um
block ali reembolsa a cota que o gateway já pré-consumiu. Mesmo
400,
contabilidade diferente.5. Resolução e fallback
Uma regra de estágio de input só roda se um guardrail efetivamente resolver na requisição. A resolução é explícita:- O
guardrail_idexplícito da chave, se existe e está habilitado. - Caso contrário, o guardrail padrão do workspace.
- Caso contrário, nenhum — a requisição é byte-idêntica à de um workspace sem política.
6. Prove antes de publicar
Não vincule uma regra de input bloqueadora ao tráfego real na fé. Duas formas de validar primeiro:Aba Test — uma amostra
Aba Test — uma amostra
Abra a aba Test no editor de guardrail, cole uma amostra, escolha o
estágio
input e rode. O sandbox avalia a política atual localmente —
sem chamada upstream, sem cota — e retorna o veredito mais (para regras
de mask) o texto renderizado. Veja
Testes e eval.Sinalize antes de bloquear
Sinalize antes de bloquear
Defina a ação como flag primeiro. Um flag não muda nada no tráfego —
apenas registra um match — então você pode medir com que frequência uma
regra dispararia em input real antes de mudá-la para block. Veja
Ajustar falsos positivos.
Veja o que disparou
Veja o que disparou
Toda regra que dispara registra um match — tipo, ação, estágio e uma
string de detalhe. A substring correspondente é registrada apenas quando
Log raw content está ligado (desligado por padrão). Veja o
Feed de matches e
Logging e privacidade.
7. Para onde ir a seguir
O estágio de input impede que input ruim chegue ao modelo. Para gatear a resposta do modelo, combine-o com o estágio de output; para governar as chamadas de ferramenta de um agente, use o firewall.- Regras de estágio de output — filtram a resposta do modelo depois que ela volta.
- Estágios e
both— quando rodar uma regra em input, output ou ambos. - Segurança de agentes de IA — onde os guardrails de input ficam na pilha de controle completa.
- Ameaça de prompt-injection e exfiltração de dados — os ataques que uma regra de input foi construída para deter.
