/v1/* que cette clé effectue est
filtré — avant que le modèle ne voie le prompt et après que le modèle a
répondu — sans redéploiement et sans changement de SDK.
Cette page est le hub de la section Guardrails : ce qu’est un guardrail, les
types de règles, les étapes et les actions, et comment une politique
s’attache à une clé. Chaque branche va plus en profondeur. Pour la référence
complète du moteur, voir Guardrails.
1. Ce que font les guardrails IA sur la passerelle
La plupart des équipes recourent aux guardrails pour garder les données sensibles hors des prompts (PII, secrets), pour contrôler le contenu non sûr (jailbreaks, intention d’injection de prompt), ou pour satisfaire un contrôle de conformité. Un guardrail est la réponse de la passerelle : une politique nommée, à portée d’espace de travail — une liste ordonnée de règles que la passerelle exécute contre l’entrée de la requête et la sortie du modèle. Parce que la liaison vit sur la clé API dans la passerelle — pas dans votre application — modifier un guardrail déplace chaque clé attachée dès le prochain appel. Votre code continue d’appeler/v1/chat/completions
exactement comme avant.
Les guardrails sont une politique de contenu (texte en entrée, texte en
sortie). Le compagnon Agent Firewall est une
politique d’outils — il gouverne quels appels d’outils un agent peut
faire. Les deux se composent ; voir
Guardrails vs. firewall.
2. Un exemple concret
Créez un guardrail nommépii-shield dans la console
(/console/guardrails), ajoutez une seule règle PII — étape input,
action mask, entités email, ssn — et attachez-la à une clé. À partir de
là :
Reply to [EMAIL] please avant la
transmission — le modèle en amont ne voit jamais l’adresse. Basculez cette
entité ssn sur block et la prochaine requête transportant un SSN est
rejetée avec une HTTP 400. Aucun changement applicatif.
3. Règles : type, étape, action
Chaque règle répond à trois questions. Le moteur exécute toutes les règles applicables et les fond en une seule décision.Type — quoi rechercher
Type — quoi rechercher
Sept types de règles. Les règles intégrées sont déterministes (pur
string/regex, sans réseau) ; les règles avancées font des appels sortants
vers un modèle ou un fournisseur et s’exécutent en concurrence.
keyword— liste de mots interdits littérale, correspondance de sous-chaîne insensible à la casse.regex— un motif RE2 (temps linéaire, sans backreferences).pii— détecteurs d’entités intégrés plus les vôtres. Voir §5.max_chars— plafonne le nombre de caractères à une étape.external— délègue à un fournisseur connecté (Aporia, Averta, ou votre propre webhook).llm_judge— une vérification sémantique contre un modèle de votre espace de travail.grounding— score la fidélité de la réponse par rapport aux sources récupérées sur la requête (RAG).
Étape — où chercher
Étape — où chercher
input (la requête), output (la réponse du modèle), ou both. Les
règles d’entrée s’exécutent avant l’appel amont ; les règles de sortie
s’exécutent après que le modèle a répondu. Voir
étape input et
étape output.Action — quoi faire
Action — quoi faire
Cinq actions apparaissent dans le constructeur de règles :
- block — rejeter l’appel avec une HTTP 400.
- mask — redacter la correspondance et laisser passer le texte assaini.
- flag — ne rien changer au trafic ; enregistrer seulement la correspondance.
- annotate — laisser le texte intact mais injecter une note de sécurité en amont (par exemple un avis de CVE avant que le modèle ne réponde).
- spotlight — encadrer le texte non fiable correspondant dans des délimiteurs et indiquer au modèle de le traiter comme des données, pas des instructions.
4. Comment un guardrail s’attache et se résout
Un guardrail se lie à une clé viaguardrail_id, ou un espace de travail
peut marquer un guardrail comme son défaut. Pour toute requête, la passerelle
résout dans cet ordre :
- Attachement explicite — si le
guardrail_idde la clé pointe vers un guardrail qui existe et est activé, c’est celui-là qui s’applique. Un attachement explicite ne retombe jamais : le désactiver est l’interrupteur d’arrêt. - Défaut de l’espace de travail — si la clé n’a pas d’attachement, le guardrail par défaut activé s’applique.
- Ni l’un ni l’autre — aucune application ; la requête est identique octet pour octet à un espace de travail qui n’a jamais activé la fonctionnalité.
Cela diffère du firewall. Une politique firewall attachée désactivée
retombe sur le défaut de l’espace de travail ; un guardrail attaché
désactivé ne va vers rien. L’interrupteur d’arrêt est littéral pour les
guardrails.
5. Détecteurs de PII
Une règlepii livre un ensemble fermé de détecteurs intégrés :
email, phone, credit_card, ssn, ip, iban, mac_address,
jwt, aws_access_key, api_key_openai, bitcoin_address — plus les
détecteurs régionaux jp_mynumber, kr_rrn et cn_resident_id.
Sur une action mask, chaque correspondance devient une balise typée — un
email devient [EMAIL], un SSN devient [SSN]. Vous pouvez superposer
jusqu’à 25 entités personnalisées par règle (une regex avec checksum Luhn
optionnel), et router différentes entités vers différentes actions dans une
seule règle via des overrides par entité.
6. Le sélecteur de presets
New guardrail ouvre dans un template. Les presets sont rédigés côté serveur, donc la console, le sandbox et cette documentation décrivent le même comportement. Le sélecteur les groupe en catégories :| Catégorie | Presets d’exemple | Branche |
|---|---|---|
| pii / secrets | PII Shield, bloqueurs de credentials secrets | bloquer les secrets |
| safety | injection de prompt, jailbreak, automutilation | injection de prompt |
| compliance | GDPR, PCI, HIPAA, compliance logger | compliance logger |
| brand / cost | grossièretés, mentions de concurrents, plafonds de taille | brand safety · cost |
| agent | filtres URL / outil shell / SQL-en-sortie | agentic |
| code_security | blocs de fichiers secrets, revue de licence copyleft | sécurité du code |
7. Quand un guardrail bloque
Une requête bloquée renvoie une HTTP 400 avec le code d’erreurguardrail_blocked et un message nommant le guardrail et la règle qui s’est
déclenchée.
- Aucun quota n’est facturé. Un block à l’étape input se déclenche avant la mesure ; un block à l’étape output rembourse le quota pré-consommé.
- La requête est marquée skip-retry — ré-exécuter le même prompt ne ferait que bloquer à nouveau, donc la passerelle ne gaspillera pas un retry sur un autre canal.
8. Une fois en production
Flux des correspondances
Chaque règle qui se déclenche enregistre le type, l’action, l’étape et le
détail. Groupez, filtrez, exportez et plongez dans une seule
correspondance.
Journalisation & confidentialité
La sous-chaîne correspondante n’est enregistrée que lorsque Log raw
content est activé — désactivé par défaut, la posture conservatrice en
matière de confidentialité.
Versioning
Chaque changement écrit une ligne d’historique. Faites le diff de deux
versions quelconques et revenez en arrière comme une nouvelle version —
l’historique n’est jamais muté.
Test & éval
Un onglet Test en sandbox évalue la politique actuelle sans appel en
amont, et un harnais d’évaluation la score contre des corpus fournis ou
personnalisés.
9. Où aller ensuite
Choisir le bon type de règle
Choisir le bon type de règle
Comprendre le modèle
Comprendre le modèle
Mapper aux menaces
Mapper aux menaces
Référence complète du moteur
Référence complète du moteur
Guardrails — chaque champ, chaque route, les
règles de juge LLM et d’ancrage, et les fournisseurs externes en
profondeur.
