1. Por que uma inspeção no gateway importa para defesa contra jailbreak de LLM
O próprio treinamento de segurança do modelo é a primeira linha, não a única. Modelos são retreinados em novos corpora de ataque, mas frases de jailbreak evoluem mais rápido que os ciclos de treinamento. Uma regra no gateway dispara deterministicamente — ela não depende do estado interno do modelo — e se aplica igualmente a todos os modelos atrás da sua chave, incluindo fine-tunes e pesos abertos que podem ter guardrails embutidos mais fracos. A inspeção no gateway também fornece uma trilha de auditoria. Cada regra que dispara fica no feed de Matches do workspace — tipo de regra, ação, detalhe, estágio — independentemente do que o modelo retornou no final.2. Os dois tipos de regra para inspeção de jailbreak
O motor de guardrail do OrcaRouter oferece duas abordagens complementares. Use-as juntas para defesa em profundidade.Verificação semântica — llm_judge
Uma regra llm_judge executa uma verificação semântica contra um modelo no
seu workspace. Você escreve um rubric que descreve o que conta como uma tentativa
de jailbreak; o motor anexa um apêndice de JSON-schema para que o modelo
retorne um veredito parseável.
judge_fail_open: true (o padrão) significa que um timeout ou erro do judge é
registrado como telemetria e a requisição continua — a segurança degrada, a
disponibilidade é preservada. Defina como false para fail closed se uma
verificação perdida for inaceitável para o seu caso de uso.
A chamada do judge rota pelos canais do workspace; tokens são cobrados e
atribuídos como uma sub-linha de judge.
Denylist literal — keyword e regex
Para frases de jailbreak conhecidas e padrões estruturais, as regras keyword
e regex são determinísticas e adicionam zero latência — elas rodam no caminho
quente sem chamada de rede.
keyword é uma correspondência por substring sem distinção de maiúsculas e
minúsculas. Um termo como do anything now também corresponde a Do Anything Now e you can do anything now.
regex aceita padrões RE2 (tempo linear, sem backreferences). Use para padrões
de truques de codificação ou variantes estruturais que uma lista literal não
consegue cobrir.
3. Inspeção no estágio de saída
A inspeção de entrada captura a tentativa. A inspeção no estágio de saída captura um bypass bem-sucedido — uma resposta que não deveria ter sido produzida independentemente do motivo. Adicione uma segunda regrallm_judge ou keyword em stage: "output" para
sinalizar ou bloquear uma resposta que contém conteúdo não permitido antes que
ela alcance o cliente.
Streaming vs. não-streaming
A ação importa aqui:| Ação | Não-streaming | Streaming |
|---|---|---|
block | A resposta é retida; HTTP 400 guardrail_blocked | O scanner corta o stream em pleno voo e emite uma mensagem de substituição — o conteúdo bloqueado nunca alcança o cliente |
mask | A correspondência é redigida no texto retornado | Atualmente se aplica apenas a respostas não-streaming; a reescrita inline de stream está no roadmap |
block funciona
corretamente.
Uma requisição bloqueada não custa nenhuma cota. Um bloqueio no estágio de
saída reembolsa a cota pré-consumida após a resposta ser rejeitada. O chamador
recebe HTTP 400
guardrail_blocked nomeando o guardrail e a regra que disparou.4. O preset de segurança Jailbreak
O console inclui um preset Jailbreak na categoria de template Safety ao lado do Prompt-Injection Basics. Ele combina uma regra de entradallm_judge e uma denylist keyword de frases de jailbreak conhecidas como
ponto de partida pronto para usar.
Para aplicá-lo: abra /console/guardrails → New guardrail → navegue pela
biblioteca de templates → Safety → Jailbreak. O preset é uma semente —
edite o rubric, estenda a lista de keywords e adicione regras de estágio de
saída para corresponder às necessidades da sua aplicação.
5. Teste sua política antes de publicar
Antes de conectar um guardrail de jailbreak a uma chave de produção, valide-o no eval / red-team harness na aba Eval dentro do editor de guardrail.- Corpora adversariais empacotados — o gateway inclui conjuntos de red-team incluindo variantes de jailbreak, evasão multilíngue e truques de codificação. Execute sua política contra eles para medir a taxa de captura antes que ela veja tráfego real.
- Corpora personalizados — faça upload do seu próprio JSONL para testar contra frases específicas do seu domínio ou modelo de ameaças.
- Corpora de falsos positivos — conjuntos benignos acompanham os adversariais. Execute ambos para confirmar que você não está bloqueando tráfego legítimo.
- Runs de eval são listadas com pontuações; abra uma run para inspecionar falhas amostra por amostra e ajustar o rubric.
6. Formato de política recomendado
Uma política robusta de jailbreak compõe três regras em um único guardrail:| # | Regra | Estágio | Ação | Por quê |
|---|---|---|---|---|
| 1 | keyword — frases de jailbreak conhecidas | input | block | Zero latência; captura frases conhecidas deterministicamente |
| 2 | llm_judge — rubric de intenção de jailbreak | input | block | Captura variantes inéditas e truques de codificação que a lista de keyword perde |
| 3 | llm_judge — rubric de resposta não permitida | output | block | Defesa em profundidade: bloqueia um bypass bem-sucedido antes que alcance o cliente |
block apenas após uma run de eval mostrar taxa aceitável
de falsos positivos. Veja Modos de enforcement
para o padrão de rollout observe → shadow → enforce usando ações flag e shadow
mode.
7. Relação com injeção de prompt
Jailbreaks e injeções de prompt são ameaças distintas mas sobrepostas:- Um jailbreak visa o treinamento de segurança do modelo — o atacante controla a mensagem direta do usuário e a elabora para suprimir guardrails.
- Uma injeção de prompt visa o seguimento de instruções — conteúdo não confiável (uma página web, um resultado de ferramenta, um documento) carrega instruções que o modelo trata como diretivas.
llm_judge e keyword capturam ambos; o rubric difere. Para
cargas de trabalho agênticas que ingerem documentos não confiáveis ou conteúdo
web, execute a inspeção de injeção junto com a inspeção de jailbreak. Veja
Injeção de prompt para os padrões de
regra específicos de injeção.
Referência de Guardrails
Referência completa para tipos de regra, ações, estágios, o LLM judge,
o eval harness e o feed de Matches.
Injeção de prompt
Inspeção de instruções injetadas de conteúdo não confiável em pipelines
de agente.
