1. Brand safety IA en un preset
La catégorie Brand dans le sélecteur de templates de guardrail est un ensemble de listes de mots interdits keyword. Chaque preset est une seule règlekeyword que vous appliquez en un clic puis modifiez — remplacez les
termes de graine par votre propre liste. Il n’y a aucun appel de modèle, aucun
saut réseau et aucun changement de SDK : la politique vit dans la passerelle, et
votre application continue d’appeler /v1/chat/completions exactement comme
avant.
Grossièretés
Une liste de mots interdits qui bloque les jurons ou les termes
interdits sur la requête — ou une variante mask qui les redacte à la
place.
Mentions de concurrents
Bloque (ou signale) toute mention des noms que vous listez — empêchez un
copilote de vanter la concurrence.
Sécurité enfance
Une liste de mots interdits conservatrice pour les termes de sécurité
enfance que vous peuplez à partir de vos propres standards, bloqués sur
la requête.
2. Les presets Brand, exactement tels que livrés
Ouvrez le split-button New guardrail dans la vue Guardrails de la console et choisissez la catégorie de templates Brand. Cinq graines vivent là :Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Une seule règle
keyword, étape input, action block. Livré avec des
termes de remplacement — modifiez la liste avec vos vrais mots interdits,
noms de concurrents ou phrases proscrites. Une correspondance renvoie une
HTTP 400 guardrail_blocked avant que le prompt ne quitte la
passerelle.Profanity Filter (mask)
Profanity Filter (mask)
Même liste de mots interdits, mais action mask et étape both — les
mots de la liste sont remplacés par
[REDACTED] au lieu de rejeter
l’appel. L’alternative plus douce quand vous voulez que la requête passe
nettoyée plutôt que refusée.Profanity Multilingual
Profanity Multilingual
Une règle de block
keyword semée avec des termes de remplacement par
marché (zh, es, fr, de, ja, ar). Remplacez chacun par les termes spécifiques
à la région que votre politique interdit — les termes de graine sont
délibérément génériques.Competitor Mentions
Competitor Mentions
Une règle
keyword, étape input, action block, semée avec un seul
terme de remplacement. Ajoutez vos noms de concurrents ; basculez l’action
sur flag pour surveiller les mentions sans rejeter le trafic.Child Safety Keywords
Child Safety Keywords
Une liste de mots interdits
keyword conservatrice, étape input, action
block. La graine est un terme de remplacement intentionnel — peuplez-la
avec les termes exacts de votre propre politique ou standards de sécurité
avant de vous y fier.Un preset est une graine, pas un verrou. Chaque preset Brand est livré avec
des termes de remplacement afin que la règle soit valide d’emblée — vous êtes
censé modifier la liste de mots interdits pour votre marque avant d’attacher une
clé. Les presets ne livrent intentionnellement pas de vraies listes de mots
interdits ou de sécurité enfance.
3. Appliquer un preset Brand dans la console
Chaque étape ici est une action de console sous votre propre session. Créer et modifier des guardrails nécessite Developer+ dans l’espace de travail. Seul l’appel/v1/* final utilise une clé de relais sk-orca-....
Ouvrir le template
Dans la console, ouvrez Guardrails, cliquez sur le split-button New
guardrail, et choisissez Competitor Mentions (ou n’importe quel preset
Brand) dans la catégorie de templates Brand.
Modifier la liste de mots interdits
Remplacez le terme de remplacement de graine par vos vrais termes — par
exemple les noms de vos concurrents. Donnez au guardrail un nom (≤ 64
caractères), comme
brand-safety, et enregistrez.Le tester
Ouvrez l’onglet Test, collez un échantillon à l’étape
input, et
exécutez la politique localement — aucun appel en amont, aucun quota (voir
§5).Attacher une clé
Modifiez une clé API et choisissez
brand-safety dans la liste déroulante
Guardrail (définit guardrail_id sur la clé), ou marquez-le comme
défaut de l’espace de travail. Voir
Attacher à une clé et
Défaut de compte.4. Un exemple concret
Un guardrail de mention de concurrent nommébrand-safety est attaché à une
clé. Le terme de remplacement de graine a été remplacé par le vrai nom Acme.
Appelez la passerelle exactement comme avant — aucun nouvel en-tête :
keyword fait correspondre Acme sur la requête, et la passerelle
rejette l’appel avec une HTTP 400 guardrail_blocked — nommant le guardrail
et la règle qui s’est déclenchée — avant que quoi que ce soit n’atteigne le
modèle en amont.
Préférez mask à block pour les grossièretés quand vous préférez
nettoyer le prompt plutôt que le refuser — les mots de la liste sont rendus en
[REDACTED] et la requête passe. Préférez flag pour les mentions de
concurrents quand vous voulez mesurer l’exposition avant de commencer à bloquer.
La page Actions couvre le compromis complet
block / mask / flag.
5. Tester avant d’attacher
Prouvez que la liste de mots interdits fait ce que vous attendez avant qu’une clé ne pointe vers elle. Ouvrez l’onglet Test à l’intérieur de l’éditeur, collez un échantillon, choisissez l’étapeinput, et lancez :
6. Voir ce qui s’est déclenché
Chaque règle qui se déclenche enregistre une correspondance — type de règle, action, étape et une chaîne de détail — qui apparaît dans le flux Matches de l’espace de travail (GET /api/guardrail/match, Member). La
sous-chaîne correspondante elle-même (le mot interdit, le nom du concurrent)
n’est enregistrée que lorsque Log raw content est activé, ce qui est
désactivé par défaut.
Pour une liste de mots interdits de sécurité enfance, laisser Log raw
content désactivé est généralement le but : vous pouvez voir *qu’*un terme a
été bloqué et à quelle fréquence sans copier le terme dans votre propre
télémétrie. Activez-le par guardrail uniquement quand vous avez besoin de la
sous-chaîne pour le triage ; le réglage n’est pas rétroactif. Voir
Flux des correspondances et
Journalisation & confidentialité.
7. Où aller ensuite
Filtres de mots sensibles
La mécanique de liste de mots interdits keyword derrière chaque preset
Brand, en profondeur.
Bloquer les secrets
Attrapez les clés API et credentials avec le preset Secrets Blocker.
Ajuster les faux positifs
Marquez les faux positifs et resserrez les listes de mots interdits depuis
le flux Matches.
Templates
La bibliothèque complète de presets à travers chaque catégorie.
