1. Pourquoi un filtrage à la passerelle importe pour la défense contre les jailbreaks LLM
L’entraînement à la sécurité du modèle est la première ligne, pas la seule ligne. Les modèles sont ré-entraînés sur de nouveaux corpus d’attaques, mais les phrases de jailbreak évoluent plus vite que les cycles d’entraînement. Une règle de passerelle se déclenche de manière déterministe — elle ne dépend pas de l’état interne du modèle — et s’applique également à travers chaque modèle derrière votre clé, y compris les fine-tunes et les poids ouverts qui peuvent avoir des guardrails intégrés plus faibles. Le filtrage à la passerelle vous donne également une piste d’audit. Chaque règle qui se déclenche atterrit dans le flux Matches de l’espace de travail — type de règle, action, détail, étape — indépendamment de ce que le modèle a finalement retourné.2. Les deux types de règles pour le filtrage de jailbreak
Le moteur guardrail d’OrcaRouter offre deux approches complémentaires. Utilisez-les ensemble pour une défense en profondeur.Vérification sémantique — llm_judge
Une règle llm_judge exécute une vérification sémantique contre un modèle dans
votre espace de travail. Vous rédigez un rubric qui décrit ce qui constitue une
tentative de jailbreak ; le moteur ajoute une annexe de schéma JSON afin que le
modèle retourne un verdict analysable.
judge_fail_open: true (le défaut) signifie qu’un timeout ou une erreur du
juge est enregistré comme télémétrie et la requête continue — la sécurité se
dégrade, la disponibilité est préservée. Définissez-le sur false pour fail
closed si une vérification manquée est inacceptable pour votre cas d’usage.
L’appel au juge route via les canaux de votre espace de travail ; les tokens
sont facturés et attribués comme une sous-ligne de juge.
Liste de refus littérale — keyword et regex
Pour les phrases de jailbreak connues et les patterns structurels, les règles
keyword et regex sont déterministes et ajoutent zéro latence — elles
s’exécutent sur le chemin à chaud sans appel réseau.
keyword est une correspondance de sous-chaîne insensible à la casse. Un terme
comme do anything now correspond également à Do Anything Now et
you can do anything now.
regex accepte les patterns RE2 (temps linéaire, sans backreferences). Utilisez-le
pour les patterns d’astuces d’encodage ou les variantes structurelles qu’une liste
littérale ne peut pas couvrir.
3. Filtrage en étape output
Le filtrage d’entrée intercepte la tentative. Le filtrage en étape output intercepte un contournement réussi — une réponse qui n’aurait pas dû être produite peu importe pourquoi. Ajoutez une deuxième règlellm_judge ou keyword à stage: "output" pour
signaler ou bloquer une réponse contenant du contenu non autorisé avant qu’elle
n’atteigne le client.
Streaming vs. non-streaming
L’action importe ici :| Action | Non-streaming | Streaming |
|---|---|---|
block | La réponse est retenue ; HTTP 400 guardrail_blocked | Le scanner coupe le flux en plein vol et émet un message de remplacement — le contenu bloqué n’atteint jamais le client |
mask | La correspondance est redactée dans le texte retourné | S’applique actuellement uniquement aux réponses non-streaming ; la réécriture de flux en bande est sur la feuille de route |
block fonctionne correctement.
Une requête bloquée ne coûte aucun quota. Un block en étape output rembourse
le quota pré-consommé après le rejet de la réponse. L’appelant reçoit HTTP 400
guardrail_blocked nommant le guardrail et la règle qui s’est déclenchée.4. Le preset de sécurité Jailbreak
La console livre un preset Jailbreak dans la catégorie de template Safety aux côtés de Prompt-Injection Basics. Il combine une règlellm_judge
d’entrée et une liste de refus keyword de phrases de jailbreak connues comme
point de départ prêt à l’emploi.
Pour l’appliquer : ouvrez /console/guardrails → New guardrail → parcourez
la bibliothèque de templates → Safety → Jailbreak. Le preset est une graine
— modifiez le rubric, étendez la liste de mots-clés, et ajoutez des règles
d’étape output pour correspondre aux besoins de votre application.
5. Testez votre politique avant de la livrer
Avant d’attacher un guardrail de jailbreak à une clé de production, validez-le dans le harnais eval / red-team sur l’onglet Eval à l’intérieur de l’éditeur de guardrail.- Corpus adversariaux fournis — la passerelle livre des ensembles red-team incluant des variantes de jailbreak, des évasions multilingues et des astuces d’encodage. Exécutez votre politique contre eux pour mesurer le taux de détection avant qu’elle ne voie le trafic réel.
- Corpus personnalisés — chargez votre propre JSONL pour tester contre les phrases spécifiques à votre domaine ou modèle de menace.
- Corpus de faux positifs — des ensembles bénins sont livrés aux côtés des adversariaux. Exécutez les deux pour confirmer que vous ne bloquez pas le trafic légitime.
- Les exécutions d’éval sont listées avec des scores ; ouvrez une exécution pour inspecter les échecs échantillon par échantillon et affiner le rubric.
6. Forme de politique recommandée
Une politique robuste de jailbreak superpose trois règles dans un seul guardrail :| # | Règle | Étape | Action | Pourquoi |
|---|---|---|---|---|
| 1 | keyword — phrases de jailbreak connues | input | block | Zéro latence ; intercepte les phrases connues de manière déterministe |
| 2 | llm_judge — rubric d’intention de jailbreak | input | block | Intercepte les variantes nouvelles et les astuces d’encodage que la liste de mots-clés manque |
| 3 | llm_judge — rubric de réponse non autorisée | output | block | Défense en profondeur : bloque un contournement réussi avant qu’il n’atteigne le client |
block uniquement après qu’une exécution
d’éval montre un taux de faux positifs acceptable. Voir
Modes d’application pour le pattern
de déploiement observe → shadow → enforce en utilisant les actions flag et
le mode shadow.
7. Relation avec l’injection de prompt
Les jailbreaks et les injections de prompt sont des menaces distinctes mais qui se chevauchent :- Un jailbreak cible l’entraînement à la sécurité du modèle — l’attaquant contrôle le message utilisateur direct et le conçoit pour supprimer les guardrails.
- Une injection de prompt cible le suivi d’instructions — du contenu non fiable (une page web, un résultat d’outil, un document) porte des instructions que le modèle traite comme des directives.
llm_judge et keyword interceptent les deux ; le rubric
diffère. Pour les charges de travail agentiques qui ingèrent des documents non
fiables ou du contenu web, exécutez le filtrage d’injection aux côtés du
filtrage de jailbreak. Voir
Injection de prompt pour les patterns
de règles spécifiques à l’injection.
Référence Guardrails
Référence complète des types de règles, actions, étapes, le juge LLM, le
harnais d’éval et le flux Matches.
Injection de prompt
Filtrage des instructions injectées depuis le contenu non fiable dans les
pipelines d’agents.
