Sicurezza di brand e tono

Esegui l’AI davanti ai clienti e il tuo brand è in gioco. Un bot di supporto non deve mai imprecare, un copilot di marketing non deve mai nominare un concorrente, e nulla nel tuo traffico dovrebbe toccare termini di sicurezza dei minori. La sicurezza di brand e tono è il modo più rapido per applicare tutti e tre: la categoria di preset di guardrail Brand porta denylist di keyword che colleghi a una chiave, e il gateway filtra ogni chiamata contro di esse prima che raggiunga mai OpenAI, Anthropic o Google. Questa è una landing focalizzata sul caso d’uso della brand-safety. Per il motore completo — ogni tipo di regola, campo e rotta — vedi il riferimento Guardrails.

1. Brand safety ai in un preset

La categoria Brand nel selettore di template di guardrail è un insieme di denylist di keyword. Ogni preset è una singola regola keyword che applichi in un clic e poi modifichi — sostituisci i termini seme con il tuo elenco. Non c’è chiamata al modello, nessun hop di rete e nessuna modifica all’SDK: la policy vive nel gateway, e la tua app continua a chiamare /v1/chat/completions esattamente come prima.

Turpiloquio

Una denylist che blocca imprecazioni o termini vietati sulla richiesta — o una variante mask che li redige invece.

Menzioni di concorrenti

Blocca (o segnala) qualsiasi menzione dei nomi che elenchi — impedisci a un copilot di elogiare la concorrenza.

Sicurezza dei minori

Una denylist conservativa per termini di sicurezza dei minori che popoli dai tuoi standard, bloccata sulla richiesta.

Tutti e tre sono match di keyword deterministici — scansioni per sottostringa senza distinzione tra maiuscole e minuscole che girano sulla richiesta prima della chiamata upstream. Non costano nulla in più e non si serializzano mai dietro un modello.

2. I preset Brand, esattamente come forniti

Apri lo split-button New guardrail nella vista Guardrails della console e scegli la categoria di template Brand. Cinque semi vivono lì:

Profanity / Brand Safety (block)

Una singola regola keyword, stage input, azione block. Fornita con termini placeholder — modifica l’elenco con le tue vere parole vietate, nomi di concorrenti o frasi proibite. Un match restituisce HTTP 400 guardrail_blocked prima che il prompt lasci il gateway.

Profanity Filter (mask)

Stessa denylist, ma azione mask e stage both — le parole nella denylist sono sostituite con [REDACTED] invece di rifiutare la chiamata. L’alternativa più morbida quando vuoi che la richiesta passi pulita anziché rifiutata.

Profanity Multilingual

Una regola di block keyword seminata con placeholder per mercato (zh, es, fr, de, ja, ar). Sostituisci ciascuno con i termini specifici della regione che la tua policy vieta — i termini seme sono deliberatamente generici.

Competitor Mentions

Una regola keyword, stage input, azione block, seminata con un singolo placeholder. Aggiungi i nomi dei tuoi concorrenti; cambia l’azione in flag per monitorare le menzioni senza rifiutare il traffico.

Child Safety Keywords

Una denylist keyword conservativa, stage input, azione block. Il seme è un placeholder intenzionale — popolalo con i termini esatti dalla tua policy o standard di sicurezza prima di farvi affidamento.

Un preset è un seme, non un lucchetto. Ogni preset Brand è fornito con termini placeholder così che la regola sia valida out of the box — ci si aspetta che tu modifichi la denylist per il tuo brand prima di collegare una chiave. I preset intenzionalmente non forniscono veri elenchi di parole vietate o di sicurezza dei minori.

3. Applica un preset Brand nella console

Ogni passaggio qui è un’azione di console sotto la tua sessione. Creare e modificare guardrails richiede Developer+ nel workspace. Solo la chiamata /v1/* finale usa una chiave di relay sk-orca-....

Apri il template

Nella console, apri Guardrails, fai clic sullo split-button New guardrail e scegli Competitor Mentions (o qualsiasi preset Brand) dalla categoria di template Brand.

Modifica la denylist

Sostituisci il placeholder seme con i tuoi veri termini — es. i nomi dei tuoi concorrenti. Dai al guardrail un nome (≤ 64 caratteri), come brand-safety, e salva.

Testalo

Apri la tab Test, incolla un campione nello stage input ed esegui la policy localmente — nessuna chiamata upstream, nessuna quota (vedi §5).

Collega una chiave

Modifica una chiave API e scegli brand-safety dal menu a tendina Guardrail (imposta guardrail_id sulla chiave), o marcalo come default del workspace. Vedi Collega a una chiave e Default di account.

4. Un esempio concreto

Un guardrail di menzione di concorrente chiamato brand-safety è collegato a una chiave. Il placeholder seme è stato sostituito con il nome reale Acme. Chiama il gateway esattamente come prima — nessun nuovo header:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

La regola keyword corrisponde a Acme sulla richiesta, e il gateway rifiuta la chiamata con HTTP 400 guardrail_blocked — nominando il guardrail e la regola che hanno scattato — prima che qualsiasi cosa raggiunga il modello upstream.

Un verdetto block non costa quota. Un block nello stage di input scatta prima che l’utilizzo venga misurato, e la richiesta è marcata skip-retry — rieseguire lo stesso prompt contro un altro canale si limiterebbe a bloccarlo di nuovo. Vedi l’ errore guardrail_blocked.

Preferisci mask a block per il turpiloquio quando preferiresti pulire il prompt anziché rifiutarlo — le parole nella denylist vengono renderizzate in [REDACTED] e la richiesta passa. Preferisci flag per le menzioni di concorrenti quando vuoi misurare l’esposizione prima di iniziare a bloccare. La pagina Azioni copre il trade-off completo block / mask / flag.

5. Testa prima di collegare

Dimostra che la denylist fa ciò che ti aspetti prima che qualsiasi chiave vi punti. Apri la tab Test all’interno dell’editor, incolla un campione, scegli lo stage input ed esegui:

Write a tweet praising Acme over us

La sandbox valuta la policy corrente localmente e restituisce il verdetto — nulla viene inviato upstream, nulla viene misurato. Per uno sweep contro un corpus di formulazioni, l’harness di eval vive una tab più in là.

Un match di keyword è una scansione per sottostringa senza distinzione tra maiuscole e minuscole, quindi class corrisponderebbe anche dentro classic. Mantieni le voci della denylist specifiche, e metti a punto i falsi positivi dal feed dei Matches una volta che vedi traffico reale.

6. Vedi cosa è scattato

Ogni regola che scatta registra un match — tipo di regola, azione, stage e una stringa di detail — fatto emergere nel feed Matches del workspace (GET /api/guardrail/match, Member). La sottostringa corrispondente stessa (la parola vietata, il nome del concorrente) viene registrata solo quando Log raw content è attivo, che è disattivato per default.

Per una denylist di sicurezza dei minori, lasciare Log raw content disattivato è di solito il punto: arrivi a vedere che un termine è stato bloccato e quanto spesso senza copiare il termine di ritorno nella tua telemetria. Attivalo per ciascun guardrail solo quando ti serve la sottostringa per il triage; l’impostazione non è retroattiva. Vedi Feed dei match e Logging e privacy.

Ogni modifica a un guardrail Brand scrive una riga di cronologia versionata nella stessa transazione — confronta due versioni qualsiasi e ripristina dalla vista History. Vedi Versioning.

7. Dove andare dopo

Filtri di parole sensibili

I meccanismi della denylist di keyword dietro ogni preset Brand, in profondità.

Block secrets

Cattura chiavi API e credenziali con il preset Secrets Blocker.

Tuning dei falsi positivi

Segnala i falsi positivi e irrigidisci le denylist dal feed dei Matches.

Templates

La libreria completa di preset in ogni categoria.

I preset Brand gestiscono il contenuto. Per fermare un modello che è stato sterzato fuori-brand da un prompt malevolo, abbinali al guardrail di prompt-injection e alla minaccia dei jailbreak. Per il motore completo — stage, regole avanzate e rotte — leggi il riferimento Guardrails.

​1. Brand safety ai in un preset

Turpiloquio

Menzioni di concorrenti

Sicurezza dei minori

​2. I preset Brand, esattamente come forniti

​3. Applica un preset Brand nella console

​4. Un esempio concreto

​5. Testa prima di collegare

​6. Vedi cosa è scattato

​7. Dove andare dopo

Filtri di parole sensibili

Block secrets

Tuning dei falsi positivi

Templates

1. Brand safety ai in un preset

2. I preset Brand, esattamente come forniti

3. Applica un preset Brand nella console

4. Un esempio concreto

5. Testa prima di collegare

6. Vedi cosa è scattato

7. Dove andare dopo