1. Brand safety ai in un preset
La categoria Brand nel selettore di template di guardrail è un insieme di denylist di keyword. Ogni preset è una singola regolakeyword che applichi
in un clic e poi modifichi — sostituisci i termini seme con il tuo elenco. Non c’è
chiamata al modello, nessun hop di rete e nessuna modifica all’SDK: la policy vive
nel gateway, e la tua app continua a chiamare /v1/chat/completions esattamente
come prima.
Turpiloquio
Una denylist che blocca imprecazioni o termini vietati sulla richiesta —
o una variante mask che li redige invece.
Menzioni di concorrenti
Blocca (o segnala) qualsiasi menzione dei nomi che elenchi — impedisci a
un copilot di elogiare la concorrenza.
Sicurezza dei minori
Una denylist conservativa per termini di sicurezza dei minori che popoli dai
tuoi standard, bloccata sulla richiesta.
2. I preset Brand, esattamente come forniti
Apri lo split-button New guardrail nella vista Guardrails della console e scegli la categoria di template Brand. Cinque semi vivono lì:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Una singola regola
keyword, stage input, azione block. Fornita con
termini placeholder — modifica l’elenco con le tue vere parole vietate, nomi
di concorrenti o frasi proibite. Un match restituisce HTTP 400
guardrail_blocked prima che il prompt lasci il gateway.Profanity Filter (mask)
Profanity Filter (mask)
Stessa denylist, ma azione mask e stage both — le parole nella
denylist sono sostituite con
[REDACTED] invece di rifiutare la chiamata.
L’alternativa più morbida quando vuoi che la richiesta passi pulita anziché
rifiutata.Profanity Multilingual
Profanity Multilingual
Una regola di block
keyword seminata con placeholder per mercato (zh, es,
fr, de, ja, ar). Sostituisci ciascuno con i termini specifici della regione
che la tua policy vieta — i termini seme sono deliberatamente generici.Competitor Mentions
Competitor Mentions
Una regola
keyword, stage input, azione block, seminata con un
singolo placeholder. Aggiungi i nomi dei tuoi concorrenti; cambia l’azione in
flag per monitorare le menzioni senza rifiutare il traffico.Child Safety Keywords
Child Safety Keywords
Una denylist
keyword conservativa, stage input, azione block. Il
seme è un placeholder intenzionale — popolalo con i termini esatti dalla tua
policy o standard di sicurezza prima di farvi affidamento.Un preset è un seme, non un lucchetto. Ogni preset Brand è fornito con termini
placeholder così che la regola sia valida out of the box — ci si aspetta che tu
modifichi la denylist per il tuo brand prima di collegare una chiave. I preset
intenzionalmente non forniscono veri elenchi di parole vietate o di sicurezza dei
minori.
3. Applica un preset Brand nella console
Ogni passaggio qui è un’azione di console sotto la tua sessione. Creare e modificare guardrails richiede Developer+ nel workspace. Solo la chiamata/v1/* finale usa una chiave di relay sk-orca-....
Apri il template
Nella console, apri Guardrails, fai clic sullo split-button New
guardrail e scegli Competitor Mentions (o qualsiasi preset Brand) dalla
categoria di template Brand.
Modifica la denylist
Sostituisci il placeholder seme con i tuoi veri termini — es. i nomi dei tuoi
concorrenti. Dai al guardrail un nome (≤ 64 caratteri), come
brand-safety, e
salva.Testalo
Apri la tab Test, incolla un campione nello stage
input ed esegui la
policy localmente — nessuna chiamata upstream, nessuna quota (vedi
§5).Collega una chiave
Modifica una chiave API e scegli
brand-safety dal menu a tendina
Guardrail (imposta guardrail_id sulla chiave), o marcalo come
default del workspace. Vedi
Collega a una chiave e
Default di account.4. Un esempio concreto
Un guardrail di menzione di concorrente chiamatobrand-safety è collegato a una
chiave. Il placeholder seme è stato sostituito con il nome reale Acme. Chiama il
gateway esattamente come prima — nessun nuovo header:
keyword corrisponde a Acme sulla richiesta, e il gateway rifiuta la
chiamata con HTTP 400 guardrail_blocked — nominando il guardrail e la regola
che hanno scattato — prima che qualsiasi cosa raggiunga il modello upstream.
Preferisci mask a block per il turpiloquio quando preferiresti pulire il
prompt anziché rifiutarlo — le parole nella denylist vengono renderizzate in
[REDACTED] e la richiesta passa. Preferisci flag per le menzioni di
concorrenti quando vuoi misurare l’esposizione prima di iniziare a bloccare. La
pagina Azioni copre il trade-off completo
block / mask / flag.
5. Testa prima di collegare
Dimostra che la denylist fa ciò che ti aspetti prima che qualsiasi chiave vi punti. Apri la tab Test all’interno dell’editor, incolla un campione, scegli lo stageinput ed esegui:
6. Vedi cosa è scattato
Ogni regola che scatta registra un match — tipo di regola, azione, stage e una stringa di detail — fatto emergere nel feed Matches del workspace (GET /api/guardrail/match, Member). La sottostringa corrispondente stessa (la
parola vietata, il nome del concorrente) viene registrata solo quando Log
raw content è attivo, che è disattivato per default.
Per una denylist di sicurezza dei minori, lasciare Log raw content disattivato
è di solito il punto: arrivi a vedere che un termine è stato bloccato e quanto
spesso senza copiare il termine di ritorno nella tua telemetria. Attivalo per
ciascun guardrail solo quando ti serve la sottostringa per il triage;
l’impostazione non è retroattiva. Vedi
Feed dei match e
Logging e privacy.
7. Dove andare dopo
Filtri di parole sensibili
I meccanismi della denylist di keyword dietro ogni preset Brand, in profondità.
Block secrets
Cattura chiavi API e credenziali con il preset Secrets Blocker.
Tuning dei falsi positivi
Segnala i falsi positivi e irrigidisci le denylist dal feed dei Matches.
Templates
La libreria completa di preset in ogni categoria.
