1. Perché un filtro al gateway conta per la difesa dai jailbreak LLM
Il training di sicurezza del modello è la prima linea, non l’unica. I modelli vengono riaddestrati su nuovi corpora di attacchi, ma le frasi di jailbreak evolvono più velocemente dei cicli di training. Una regola del gateway scatta deterministicamente — non dipende dallo stato interno del modello — e si applica ugualmente su ogni modello dietro la tua chiave, inclusi fine-tune e pesi open che potrebbero avere guardrail integrati più deboli. Il filtraggio al gateway ti dà anche una traccia di audit. Ogni regola che scatta finisce nel feed Matches del workspace — tipo di regola, azione, dettaglio, stage — indipendentemente da ciò che il modello ha restituito in ultima analisi.2. I due tipi di regola per il filtraggio dei jailbreak
Il motore del guardrail di OrcaRouter offre due approcci complementari. Usali insieme per la difesa in profondità.Controllo semantico — llm_judge
Una regola llm_judge esegue un controllo semantico contro un modello nel tuo
workspace. Scrivi una rubrica che descrive cosa conta come tentativo di jailbreak;
il motore aggiunge un’appendice JSON-schema così il modello restituisce un
verdetto parseabile.
judge_fail_open: true (il default) significa che un timeout o errore del
judge viene registrato come telemetria e la richiesta continua — la sicurezza
degrada, la disponibilità è preservata. Impostalo a false per fail closed se
un controllo mancato è inaccettabile per il tuo caso d’uso.
La chiamata al judge viene instradata attraverso i canali del tuo workspace; i
token sono fatturati e attribuiti come sub-riga del judge.
Denylist letterale — keyword e regex
Per le frasi di jailbreak note e i pattern strutturali, le regole keyword e
regex sono deterministiche e aggiungono zero latenza — girano sull’hot path
senza chiamate di rete.
keyword è un match di sottostringa case-insensitive. Un termine come
do anything now corrisponde anche a Do Anything Now e you can do anything now.
regex accetta pattern RE2 (tempo lineare, nessuna backreference). Usalo per
pattern di trucchi di codifica o varianti strutturali che un elenco letterale
non può coprire.
3. Filtraggio di stage output
Il filtraggio in input cattura il tentativo. Il filtraggio di stage output cattura un bypass riuscito — una risposta che non avrebbe dovuto essere prodotta indipendentemente dal perché. Aggiungi una seconda regolallm_judge o keyword a stage: "output" per
segnalare o bloccare una risposta che contiene contenuto non consentito prima
che raggiunga il client.
Streaming vs. non-streaming
L’azione conta qui:| Azione | Non-streaming | Streaming |
|---|---|---|
block | La risposta viene trattenuta; HTTP 400 guardrail_blocked | Lo scanner taglia lo stream a metà volo ed emette un messaggio sostitutivo — il contenuto bloccato non raggiunge mai il client |
mask | Il match viene redatto nel testo restituito | Attualmente si applica solo alle risposte non in streaming; la riscrittura in-band dello stream è in roadmap |
block funziona
correttamente.
Una richiesta bloccata non costa quota. Un block di stage output rimborsa la
quota pre-consumata dopo che la risposta viene rifiutata. Il chiamante riceve
HTTP 400
guardrail_blocked che nomina il guardrail e la regola che ha scattato.4. Il preset di sicurezza Jailbreak
La console viene fornita con un preset Jailbreak nella categoria di template Safety accanto a Prompt-Injection Basics. Combina una regolallm_judge
in input e una denylist keyword di frasi di jailbreak note come punto di
partenza pronto all’uso.
Per applicarlo: apri /console/guardrails → New guardrail → sfoglia la
libreria di template → Safety → Jailbreak. Il preset è un seme — modifica
la rubrica, estendi la lista di keyword e aggiungi regole di stage output per
corrispondere alle esigenze della tua applicazione.
5. Testa la tua policy prima di metterla in produzione
Prima di collegare un guardrail anti-jailbreak a una chiave in produzione, validalo nell’harness eval / red-team nella tab Eval dentro l’editor del guardrail.- Corpora avversariali inclusi — il gateway viene fornito con set di red-team che includono varianti di jailbreak, evasione multilingue e trucchi di codifica. Esegui la tua policy contro di essi per misurare il tasso di cattura prima che veda traffico reale.
- Corpora personalizzati — carica il tuo JSONL per testare contro frasi specifiche al tuo dominio o modello di threat.
- Corpora di falsi positivi — i set benigni vengono forniti accanto a quelli avversariali. Esegui entrambi per confermare che non stai bloccando traffico legittimo.
- Le esecuzioni di eval sono elencate con i punteggi; apri un’esecuzione per ispezionare i fallimenti campione per campione e ottimizzare la rubrica.
6. Forma di policy consigliata
Una robusta policy anti-jailbreak sovrappone tre regole in un singolo guardrail:| # | Regola | Stage | Azione | Perché |
|---|---|---|---|---|
| 1 | keyword — frasi di jailbreak note | input | block | Zero latenza; cattura le frasi note deterministicamente |
| 2 | llm_judge — rubrica di intento di jailbreak | input | block | Cattura le varianti nuove e i trucchi di codifica che la lista keyword manca |
| 3 | llm_judge — rubrica di risposta non consentita | output | block | Difesa in profondità: blocca un bypass riuscito prima che raggiunga il client |
block solo dopo che un’esecuzione di eval mostra un tasso
di falsi positivi accettabile. Vedi
Modalità di applicazione per il
pattern di rollout observe → shadow → enforce usando azioni flag e shadow mode.
7. Relazione con la prompt injection
I jailbreak e le prompt injection sono minacce distinte ma sovrapposte:- Un jailbreak prende di mira il training di sicurezza del modello — l’attaccante controlla il messaggio utente diretto e lo costruisce per sopprimere i guardrail.
- Una prompt injection prende di mira il seguire le istruzioni — contenuto non attendibile (una pagina web, il risultato di un tool, un documento) porta istruzioni che il modello tratta come direttive.
llm_judge e keyword catturano entrambe; la rubrica
differisce. Per i carichi di lavoro agentici che ingeriscono documenti non
attendibili o contenuto web, esegui il filtraggio dell’injection accanto al
filtraggio dei jailbreak. Vedi
Prompt injection per i pattern di
regole specifici all’injection.
Riferimento Guardrails
Riferimento completo per tipi di regola, azioni, stage, LLM judge, harness
di eval e feed Matches.
Prompt injection
Filtraggio delle istruzioni iniettate da contenuto non attendibile nelle
pipeline agentiche.
