Sécurité de marque et de ton

Vous exécutez de l’IA devant des clients et votre marque est en jeu. Un bot de support ne doit jamais jurer, un copilote marketing ne doit jamais nommer un concurrent, et rien dans votre trafic ne devrait toucher aux termes de sécurité enfance. La sécurité de marque et de ton est le moyen le plus rapide d’appliquer les trois : la catégorie de presets de guardrail Brand livre des listes de mots interdits keyword que vous attachez à une clé, et la passerelle filtre chaque appel contre elles avant qu’il n’atteigne jamais OpenAI, Anthropic ou Google. C’est une page d’atterrissage ciblée sur le cas d’usage de la brand safety. Pour le moteur complet — chaque type de règle, champ et route — voir la référence Guardrails.

1. Brand safety IA en un preset

La catégorie Brand dans le sélecteur de templates de guardrail est un ensemble de listes de mots interdits keyword. Chaque preset est une seule règle keyword que vous appliquez en un clic puis modifiez — remplacez les termes de graine par votre propre liste. Il n’y a aucun appel de modèle, aucun saut réseau et aucun changement de SDK : la politique vit dans la passerelle, et votre application continue d’appeler /v1/chat/completions exactement comme avant.

Grossièretés

Une liste de mots interdits qui bloque les jurons ou les termes interdits sur la requête — ou une variante mask qui les redacte à la place.

Mentions de concurrents

Bloque (ou signale) toute mention des noms que vous listez — empêchez un copilote de vanter la concurrence.

Sécurité enfance

Une liste de mots interdits conservatrice pour les termes de sécurité enfance que vous peuplez à partir de vos propres standards, bloqués sur la requête.

Les trois sont des correspondances keyword déterministes — scans de sous-chaîne insensibles à la casse qui s’exécutent sur la requête avant l’appel en amont. Ils ne coûtent rien de plus et ne se sérialisent jamais derrière un modèle.

2. Les presets Brand, exactement tels que livrés

Ouvrez le split-button New guardrail dans la vue Guardrails de la console et choisissez la catégorie de templates Brand. Cinq graines vivent là :

Profanity / Brand Safety (block)

Une seule règle keyword, étape input, action block. Livré avec des termes de remplacement — modifiez la liste avec vos vrais mots interdits, noms de concurrents ou phrases proscrites. Une correspondance renvoie une HTTP 400 guardrail_blocked avant que le prompt ne quitte la passerelle.

Profanity Filter (mask)

Même liste de mots interdits, mais action mask et étape both — les mots de la liste sont remplacés par [REDACTED] au lieu de rejeter l’appel. L’alternative plus douce quand vous voulez que la requête passe nettoyée plutôt que refusée.

Profanity Multilingual

Une règle de block keyword semée avec des termes de remplacement par marché (zh, es, fr, de, ja, ar). Remplacez chacun par les termes spécifiques à la région que votre politique interdit — les termes de graine sont délibérément génériques.

Competitor Mentions

Une règle keyword, étape input, action block, semée avec un seul terme de remplacement. Ajoutez vos noms de concurrents ; basculez l’action sur flag pour surveiller les mentions sans rejeter le trafic.

Child Safety Keywords

Une liste de mots interdits keyword conservatrice, étape input, action block. La graine est un terme de remplacement intentionnel — peuplez-la avec les termes exacts de votre propre politique ou standards de sécurité avant de vous y fier.

Un preset est une graine, pas un verrou. Chaque preset Brand est livré avec des termes de remplacement afin que la règle soit valide d’emblée — vous êtes censé modifier la liste de mots interdits pour votre marque avant d’attacher une clé. Les presets ne livrent intentionnellement pas de vraies listes de mots interdits ou de sécurité enfance.

3. Appliquer un preset Brand dans la console

Chaque étape ici est une action de console sous votre propre session. Créer et modifier des guardrails nécessite Developer+ dans l’espace de travail. Seul l’appel /v1/* final utilise une clé de relais sk-orca-....

Ouvrir le template

Dans la console, ouvrez Guardrails, cliquez sur le split-button New guardrail, et choisissez Competitor Mentions (ou n’importe quel preset Brand) dans la catégorie de templates Brand.

Modifier la liste de mots interdits

Remplacez le terme de remplacement de graine par vos vrais termes — par exemple les noms de vos concurrents. Donnez au guardrail un nom (≤ 64 caractères), comme brand-safety, et enregistrez.

Le tester

Ouvrez l’onglet Test, collez un échantillon à l’étape input, et exécutez la politique localement — aucun appel en amont, aucun quota (voir §5).

Attacher une clé

Modifiez une clé API et choisissez brand-safety dans la liste déroulante Guardrail (définit guardrail_id sur la clé), ou marquez-le comme défaut de l’espace de travail. Voir Attacher à une clé et Défaut de compte.

4. Un exemple concret

Un guardrail de mention de concurrent nommé brand-safety est attaché à une clé. Le terme de remplacement de graine a été remplacé par le vrai nom Acme. Appelez la passerelle exactement comme avant — aucun nouvel en-tête :

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

La règle keyword fait correspondre Acme sur la requête, et la passerelle rejette l’appel avec une HTTP 400 guardrail_blocked — nommant le guardrail et la règle qui s’est déclenchée — avant que quoi que ce soit n’atteigne le modèle en amont.

Un verdict block ne coûte aucun quota. Un block à l’étape input se déclenche avant que l’usage ne soit mesuré, et la requête est marquée skip-retry — ré-exécuter le même prompt contre un autre canal ne ferait que bloquer à nouveau. Voir l’erreur guardrail_blocked.

Préférez mask à block pour les grossièretés quand vous préférez nettoyer le prompt plutôt que le refuser — les mots de la liste sont rendus en [REDACTED] et la requête passe. Préférez flag pour les mentions de concurrents quand vous voulez mesurer l’exposition avant de commencer à bloquer. La page Actions couvre le compromis complet block / mask / flag.

5. Tester avant d’attacher

Prouvez que la liste de mots interdits fait ce que vous attendez avant qu’une clé ne pointe vers elle. Ouvrez l’onglet Test à l’intérieur de l’éditeur, collez un échantillon, choisissez l’étape input, et lancez :

Write a tweet praising Acme over us

Le sandbox évalue la politique actuelle localement et renvoie le verdict — rien n’est envoyé en amont, rien n’est mesuré. Pour un balayage contre un corpus de formulations, le harnais d’évaluation vit dans l’onglet d’à côté.

Une correspondance keyword est un scan de sous-chaîne insensible à la casse, donc class correspondrait aussi à l’intérieur de classic. Gardez les entrées de liste de mots interdits spécifiques, et ajustez les faux positifs depuis le flux Matches une fois que vous voyez du trafic réel.

6. Voir ce qui s’est déclenché

Chaque règle qui se déclenche enregistre une correspondance — type de règle, action, étape et une chaîne de détail — qui apparaît dans le flux Matches de l’espace de travail (GET /api/guardrail/match, Member). La sous-chaîne correspondante elle-même (le mot interdit, le nom du concurrent) n’est enregistrée que lorsque Log raw content est activé, ce qui est désactivé par défaut.

Pour une liste de mots interdits de sécurité enfance, laisser Log raw content désactivé est généralement le but : vous pouvez voir *qu’*un terme a été bloqué et à quelle fréquence sans copier le terme dans votre propre télémétrie. Activez-le par guardrail uniquement quand vous avez besoin de la sous-chaîne pour le triage ; le réglage n’est pas rétroactif. Voir Flux des correspondances et Journalisation & confidentialité.

Chaque modification d’un guardrail Brand écrit une ligne d’historique versionnée dans la même transaction — faites le diff de deux versions et revenez en arrière depuis la vue History. Voir Versioning.

7. Où aller ensuite

Filtres de mots sensibles

La mécanique de liste de mots interdits keyword derrière chaque preset Brand, en profondeur.

Bloquer les secrets

Attrapez les clés API et credentials avec le preset Secrets Blocker.

Ajuster les faux positifs

Marquez les faux positifs et resserrez les listes de mots interdits depuis le flux Matches.

Templates

La bibliothèque complète de presets à travers chaque catégorie.

Les presets Brand contrôlent le contenu. Pour arrêter un modèle qui a été orienté hors de la marque par un prompt malveillant, associez-les au guardrail d’injection de prompt et à la menace des jailbreaks. Pour le moteur complet — étapes, règles avancées et routes — lisez la référence Guardrails.

​1. Brand safety IA en un preset

Grossièretés

Mentions de concurrents

Sécurité enfance

​2. Les presets Brand, exactement tels que livrés

​3. Appliquer un preset Brand dans la console

​4. Un exemple concret

​5. Tester avant d’attacher

​6. Voir ce qui s’est déclenché

​7. Où aller ensuite

Filtres de mots sensibles

Bloquer les secrets

Ajuster les faux positifs

Templates

1. Brand safety IA en un preset

2. Les presets Brand, exactement tels que livrés

3. Appliquer un preset Brand dans la console

4. Un exemple concret

5. Tester avant d’attacher

6. Voir ce qui s’est déclenché

7. Où aller ensuite