1. Brand safety ai em um preset
A categoria Brand no seletor de templates de guardrail é um conjunto de denylists de keyword. Cada preset é uma única regrakeyword que você
aplica em um clique e depois edita — troque os termos da semente pela sua
própria lista. Não há chamada a modelo, salto de rede ou mudança de SDK: a
política vive no gateway, e sua app continua chamando
/v1/chat/completions exatamente como antes.
Palavrões
Uma denylist que bloqueia xingamentos ou termos banidos na requisição
— ou uma variante mask que os redige em vez disso.
Menções a concorrentes
Bloqueia (ou sinaliza) qualquer menção a nomes que você lista — mantém
um copiloto de elogiar a concorrência.
Segurança infantil
Uma denylist conservadora para termos de segurança infantil que você
popula a partir dos seus próprios padrões, bloqueada na requisição.
2. Os presets Brand, exatamente como entregues
Abra o split-button New guardrail na visão Guardrails do console e escolha a categoria de template Brand. Cinco sementes vivem ali:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Uma única regra
keyword, estágio input, ação block. Vem com
termos de placeholder — edite a lista para suas palavras banidas reais,
nomes de concorrentes ou frases proibidas. Uma correspondência retorna
HTTP 400 guardrail_blocked antes de o prompt deixar o gateway.Profanity Filter (mask)
Profanity Filter (mask)
A mesma denylist, mas ação mask e estágio both — palavras na
denylist são substituídas por
[REDACTED] em vez de rejeitar a chamada. A
alternativa mais suave quando você quer que a requisição passe limpa em
vez de recusada.Profanity Multilingual
Profanity Multilingual
Uma regra de block
keyword semeada com placeholders por mercado (zh, es,
fr, de, ja, ar). Substitua cada um pelos termos específicos da região que
sua política bane — os termos de semente são deliberadamente genéricos.Competitor Mentions
Competitor Mentions
Uma regra
keyword, estágio input, ação block, semeada com um
único placeholder. Adicione os nomes dos seus concorrentes; mude a ação
para flag para monitorar menções sem rejeitar tráfego.Child Safety Keywords
Child Safety Keywords
Uma denylist
keyword conservadora, estágio input, ação block. A
semente é um placeholder intencional — popule-a com os termos exatos da
sua própria política ou padrões de segurança antes de depender dela.Um preset é uma semente, não uma trava. Todo preset Brand vem com termos
de placeholder para que a regra seja válida de imediato — espera-se que você
edite a denylist para sua marca antes de vincular uma chave. Os presets
intencionalmente não trazem listas reais de palavras banidas ou de segurança
infantil.
3. Aplique um preset Brand no console
Cada passo aqui é uma ação de console sob sua própria sessão. Criar e editar guardrails exige Developer+ no workspace. Apenas a chamada final/v1/* usa uma chave de relay sk-orca-....
Abra o template
No console, abra Guardrails, clique no split-button New guardrail
e escolha Competitor Mentions (ou qualquer preset Brand) na categoria
de template Brand.
Edite a denylist
Substitua o placeholder de semente pelos seus termos reais — ex.: os nomes
dos seus concorrentes. Dê ao guardrail um nome (≤ 64 chars), como
brand-safety, e salve.Teste-o
Abra a aba Test, cole uma amostra no estágio
input e rode a política
localmente — sem chamada upstream, sem cota (veja
§5).Vincule uma chave
Edite uma chave de API e escolha
brand-safety no menu Guardrail
(define guardrail_id na chave), ou marque-o como padrão do
workspace. Veja Vincular a uma chave
e Padrão de conta.4. Um exemplo concreto
Um guardrail de menção a concorrente chamadobrand-safety está vinculado a
uma chave. O placeholder de semente foi substituído pelo nome real Acme.
Chame o gateway exatamente como antes — sem novos headers:
keyword corresponde a Acme na requisição, e o gateway rejeita a
chamada com HTTP 400 guardrail_blocked — nomeando o guardrail e a regra
que disparou — antes de qualquer coisa chegar ao modelo upstream.
Prefira mask em vez de block para palavrões quando você preferir
limpar o prompt a recusá-lo — palavras na denylist são renderizadas como
[REDACTED] e a requisição passa. Prefira flag para menções a
concorrentes quando quiser medir a exposição antes de começar a bloquear. A
página de Ações cobre o trade-off completo
de block / mask / flag.
5. Teste antes de vincular
Prove que a denylist faz o que você espera antes que qualquer chave aponte para ela. Abra a aba Test dentro do editor, cole uma amostra, escolha o estágioinput e rode:
6. Veja o que disparou
Toda regra que dispara registra um match — tipo de regra, ação, estágio e uma string de detalhe — exibido no feed Matches do workspace (GET /api/guardrail/match, Member). A substring correspondente em si (a
palavra banida, o nome do concorrente) é registrada apenas quando Log
raw content está ligado, que está desligado por padrão.
Para uma denylist de segurança infantil, deixar Log raw content desligado
costuma ser o ponto: você consegue ver que um termo foi bloqueado e com que
frequência sem copiar o termo de volta para a sua própria telemetria.
Ligue-o por guardrail apenas quando precisar da substring para triagem; a
configuração não é retroativa. Veja
Feed de matches e
Logging e privacidade.
7. Para onde ir a seguir
Filtros de palavras sensíveis
A mecânica de denylist de keyword por trás de cada preset Brand, em
profundidade.
Bloquear segredos
Pegue chaves de API e credenciais com o preset Secrets Blocker.
Ajustar falsos positivos
Marque falsos positivos e aperte denylists a partir do feed de Matches.
Templates
A biblioteca completa de presets em todas as categorias.
