Créer votre premier guardrail

La façon la plus rapide de placer une politique de contenu devant chaque appel de modèle est un guardrail — une politique nommée, à portée d’espace de travail, que vous rédigez une fois dans la console et attachez à une clé API. La passerelle filtre alors l’entrée de la requête et la sortie du modèle dès le prochain appel, sans redéploiement et sans changement de SDK. Cette page parcourt la boucle de bout en bout : créer un guardrail, ajouter une règle, la tester dans le sandbox, l’attacher à une clé et envoyer une vraie requête. Pour la référence complète du moteur — chaque type de règle, champ et route — voir la référence Guardrails.

Chaque étape ici est une action de console sur la passerelle hébergée (api.orcarouter.ai). La configuration des guardrails s’exécute sous votre propre session ; seul l’appel /v1/* final utilise une clé de relais sk-orca-.... Créer et modifier des guardrails nécessite Developer+ dans l’espace de travail.

1. Comment ajouter des guardrails LLM en cinq étapes

Voici toute la boucle en un coup d’œil — chaque étape est développée ci-dessous.

Créer un guardrail

Dans la console, ouvrez Guardrails et cliquez sur New guardrail. Donnez-lui un nom (≤ 64 caractères), par exemple pii-shield.

Ajouter une règle

Ajoutez une règle PII detection à l’étape input avec l’action mask.

La tester dans le sandbox

Ouvrez l’onglet Test, collez un échantillon, et exécutez la politique localement — aucun appel en amont, aucun quota.

L'attacher à une clé

Modifiez une clé API et choisissez le guardrail dans la liste déroulante Guardrail. La liaison vit sur la clé.

Envoyer une requête

Appelez /v1/chat/completions avec cette clé. La passerelle applique la politique avant la transmission.

2. Créer le guardrail

Dans la console, ouvrez Guardrails et cliquez sur New guardrail. Un guardrail est une politique de contenu nommée, à portée d’espace de travail — une liste ordonnée de règles que la passerelle exécute contre l’entrée de la requête et la sortie du modèle. Nommez-le pii-shield et enregistrez.

Le split-button New guardrail ouvre aussi directement sur un template. Le preset PII Shield est une seule règle pii qui masque email, phone, ssn, credit_card et ip. Appliquer un preset est une graine, pas un verrou — modifiez-le librement ensuite. Parcourez les templates de presets pour plus de points de départ.

3. Ajouter une règle

Chaque règle décide trois choses — quoi rechercher (un type de règle), où chercher (une étape), et quoi faire (une action). Ajoutez une règle :

Type : PII detection (pii)
Étape : Input (la requête)
Action : Mask — redacter la correspondance
Entités : email, phone, ssn

Sur une action mask, chaque correspondance est remplacée par une balise typée — un email devient [EMAIL], un SSN devient [SSN]. Les sept types de règles (keyword, regex, pii, max_chars, external, llm_judge, grounding) et les cinq actions (block, mask, flag, annotate, spotlight) sont couverts dans la référence. Pour ce premier guardrail, une seule règle de masquage suffit.

Le masquage est actif sur les deux étapes. Les règles à l’étape input masquent la requête avant que le modèle ne la voie ; les règles à l’étape output masquent la réponse du modèle — sur les réponses non-streaming et chunk par chunk sur les réponses streaming — avant que le client ne la reçoive. Block est appliqué sur les deux étapes également. Si vous voulez contrôler les réponses du modèle, définissez l’étape de la règle sur output (ou both) ; voir Règles à l’étape output.

4. La tester dans le sandbox

Avant d’attacher le guardrail à une clé, prouvez qu’il fait ce que vous attendez. Ouvrez l’onglet Test à l’intérieur de l’éditeur, collez un échantillon, choisissez l’étape input, et lancez :

Reply to jane@acme.com please

Le sandbox évalue la politique actuelle localement et renvoie le verdict plus le texte rendu :

Reply to [EMAIL] please

Rien n’est envoyé en amont et rien n’est mesuré. Pour une grille A/B contre un corpus d’entrées, le harnais d’évaluation vit dans l’onglet d’à côté.

5. L’attacher à une clé

Un guardrail ne fait rien tant qu’une clé ne pointe pas vers lui. Deux façons de lier :

Par clé

Modifiez une clé API et choisissez le guardrail dans la liste déroulante Guardrail. Cela définit guardrail_id sur la clé. Voir Attacher à une clé.

Défaut de l'espace de travail

Marquez le guardrail comme défaut de l’espace de travail afin que toute clé sans attachement explicite en hérite. Voir Défaut de compte.

La résolution est explicite et prévisible :

Ordre	Ce qui s’applique
1	Le `guardrail_id` explicite de la clé (s’il existe et est activé).
2	Le défaut de l’espace de travail (si la clé n’a pas d’attachement).
3	Aucun — la requête est identique octet pour octet à un espace de travail sans politique.

Un attachement explicite ne retombe jamais silencieusement. Désactiver un guardrail attaché est l’interrupteur d’arrêt — il ne bascule pas vers le défaut de l’espace de travail. (Les politiques firewall diffèrent ici ; voir Guardrails vs. firewall.)

6. Envoyer une requête

En utilisant une clé liée à pii-shield, appelez OrcaRouter exactement comme avant — aucun changement de SDK, aucun nouvel en-tête :

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

La passerelle masque l’email en [EMAIL] avant la transmission — le modèle en amont ne voit jamais l’adresse. Basculez l’action de la règle sur block et la toute prochaine requête contenant l’entité est rejetée avec une HTTP 400 guardrail_blocked. Une requête bloquée ne coûte aucun quota (un block input se déclenche avant la mesure ; un block output rembourse le quota pré-consommé) et est marquée skip-retry. Voir l’erreur guardrail_blocked pour la forme complète de la réponse.

7. Où aller ensuite

Voir ce qui s'est déclenché

Chaque règle qui se déclenche enregistre une correspondance — type, action, étape et une chaîne de détail. La sous-chaîne correspondante n’est enregistrée que lorsque Log raw content est activé (désactivé par défaut). Voir le flux des correspondances et Journalisation & confidentialité.

Masquer au-delà des bases

La détection de PII couvre email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (plus les entités régionales), et vous pouvez rédiger les vôtres. Voir PII Shield, Entités PII personnalisées, et Formats de masquage.

Attraper les secrets et l'injection

Ajoutez un bloqueur de secrets ou le preset Bases de l’injection de prompt — ce dernier signale les phrases de jailbreak courantes pour revue. Pour attraper l’intention d’injection sémantiquement plutôt que par phrase, ajoutez une règle llm_judge à côté.

Annuler un changement

Chaque modification écrit une ligne d’historique de versions. Ouvrez History pour faire le diff et revenir en arrière. Voir Versioning.

Contrôler les appels d'outils, pas seulement le texte

Les guardrails filtrent le contenu. Pour gouverner les appels d’outils d’un agent — refuser les actions destructrices, plafonner le coût, exiger une approbation — utilisez le Firewall. Commencez par Sécuriser les agents IA et la menace des appels d’outils dangereux.

Lisez la référence Guardrails pour le moteur complet — champs de règles, fournisseurs externes, harnais d’évaluation et API complète — ou le démarrage rapide sécurité pour câbler ensemble guardrails et firewall en référentiel d’agent.

​1. Comment ajouter des guardrails LLM en cinq étapes

​2. Créer le guardrail

​3. Ajouter une règle

​4. La tester dans le sandbox

​5. L’attacher à une clé

Par clé

Défaut de l'espace de travail

​6. Envoyer une requête

​7. Où aller ensuite

1. Comment ajouter des guardrails LLM en cinq étapes

2. Créer le guardrail

3. Ajouter une règle

4. La tester dans le sandbox

5. L’attacher à une clé

6. Envoyer une requête

7. Où aller ensuite