Segurança de marca e tom

Você roda IA na frente de clientes e sua marca está em jogo. Um bot de suporte nunca deve xingar, um copiloto de marketing nunca deve nomear um concorrente, e nada no seu tráfego deve tocar termos de segurança infantil. A segurança de marca e tom é a forma mais rápida de aplicar os três: a categoria de preset de guardrail Brand traz denylists de keyword que você vincula a uma chave, e o gateway filtra cada chamada contra elas antes de sequer chegar a OpenAI, Anthropic ou Google. Este é um destino focado no caso de uso de brand-safety. Para o motor completo — cada tipo de regra, campo e rota — veja a referência de Guardrails.

1. Brand safety ai em um preset

A categoria Brand no seletor de templates de guardrail é um conjunto de denylists de keyword. Cada preset é uma única regra keyword que você aplica em um clique e depois edita — troque os termos da semente pela sua própria lista. Não há chamada a modelo, salto de rede ou mudança de SDK: a política vive no gateway, e sua app continua chamando /v1/chat/completions exatamente como antes.

Palavrões

Uma denylist que bloqueia xingamentos ou termos banidos na requisição — ou uma variante mask que os redige em vez disso.

Menções a concorrentes

Bloqueia (ou sinaliza) qualquer menção a nomes que você lista — mantém um copiloto de elogiar a concorrência.

Segurança infantil

Uma denylist conservadora para termos de segurança infantil que você popula a partir dos seus próprios padrões, bloqueada na requisição.

Todos os três são correspondências de keyword determinísticas — varreduras de substring sem distinção entre maiúsculas e minúsculas que rodam na requisição antes da chamada upstream. Elas não custam nada extra e nunca se serializam atrás de um modelo.

2. Os presets Brand, exatamente como entregues

Abra o split-button New guardrail na visão Guardrails do console e escolha a categoria de template Brand. Cinco sementes vivem ali:

Profanity / Brand Safety (block)

Uma única regra keyword, estágio input, ação block. Vem com termos de placeholder — edite a lista para suas palavras banidas reais, nomes de concorrentes ou frases proibidas. Uma correspondência retorna HTTP 400 guardrail_blocked antes de o prompt deixar o gateway.

Profanity Filter (mask)

A mesma denylist, mas ação mask e estágio both — palavras na denylist são substituídas por [REDACTED] em vez de rejeitar a chamada. A alternativa mais suave quando você quer que a requisição passe limpa em vez de recusada.

Profanity Multilingual

Uma regra de block keyword semeada com placeholders por mercado (zh, es, fr, de, ja, ar). Substitua cada um pelos termos específicos da região que sua política bane — os termos de semente são deliberadamente genéricos.

Competitor Mentions

Uma regra keyword, estágio input, ação block, semeada com um único placeholder. Adicione os nomes dos seus concorrentes; mude a ação para flag para monitorar menções sem rejeitar tráfego.

Child Safety Keywords

Uma denylist keyword conservadora, estágio input, ação block. A semente é um placeholder intencional — popule-a com os termos exatos da sua própria política ou padrões de segurança antes de depender dela.

Um preset é uma semente, não uma trava. Todo preset Brand vem com termos de placeholder para que a regra seja válida de imediato — espera-se que você edite a denylist para sua marca antes de vincular uma chave. Os presets intencionalmente não trazem listas reais de palavras banidas ou de segurança infantil.

3. Aplique um preset Brand no console

Cada passo aqui é uma ação de console sob sua própria sessão. Criar e editar guardrails exige Developer+ no workspace. Apenas a chamada final /v1/* usa uma chave de relay sk-orca-....

Abra o template

No console, abra Guardrails, clique no split-button New guardrail e escolha Competitor Mentions (ou qualquer preset Brand) na categoria de template Brand.

Edite a denylist

Substitua o placeholder de semente pelos seus termos reais — ex.: os nomes dos seus concorrentes. Dê ao guardrail um nome (≤ 64 chars), como brand-safety, e salve.

Teste-o

Abra a aba Test, cole uma amostra no estágio input e rode a política localmente — sem chamada upstream, sem cota (veja §5).

Vincule uma chave

Edite uma chave de API e escolha brand-safety no menu Guardrail (define guardrail_id na chave), ou marque-o como padrão do workspace. Veja Vincular a uma chave e Padrão de conta.

4. Um exemplo concreto

Um guardrail de menção a concorrente chamado brand-safety está vinculado a uma chave. O placeholder de semente foi substituído pelo nome real Acme. Chame o gateway exatamente como antes — sem novos headers:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

A regra keyword corresponde a Acme na requisição, e o gateway rejeita a chamada com HTTP 400 guardrail_blocked — nomeando o guardrail e a regra que disparou — antes de qualquer coisa chegar ao modelo upstream.

Um veredito block não custa cota. Um block no estágio de input dispara antes de o uso ser medido, e a requisição é marcada como skip-retry — reexecutar o mesmo prompt contra outro canal apenas bloquearia de novo. Veja o erro guardrail_blocked.

Prefira mask em vez de block para palavrões quando você preferir limpar o prompt a recusá-lo — palavras na denylist são renderizadas como [REDACTED] e a requisição passa. Prefira flag para menções a concorrentes quando quiser medir a exposição antes de começar a bloquear. A página de Ações cobre o trade-off completo de block / mask / flag.

5. Teste antes de vincular

Prove que a denylist faz o que você espera antes que qualquer chave aponte para ela. Abra a aba Test dentro do editor, cole uma amostra, escolha o estágio input e rode:

Write a tweet praising Acme over us

O sandbox avalia a política atual localmente e retorna o veredito — nada é enviado upstream, nada é medido. Para uma varredura contra um corpus de formulações, o Eval harness fica uma aba ao lado.

Uma correspondência de keyword é uma varredura de substring sem distinção entre maiúsculas e minúsculas, então class também corresponderia dentro de classic. Mantenha entradas de denylist específicas, e ajuste falsos positivos a partir do feed de Matches uma vez que você veja tráfego real.

6. Veja o que disparou

Toda regra que dispara registra um match — tipo de regra, ação, estágio e uma string de detalhe — exibido no feed Matches do workspace (GET /api/guardrail/match, Member). A substring correspondente em si (a palavra banida, o nome do concorrente) é registrada apenas quando Log raw content está ligado, que está desligado por padrão.

Para uma denylist de segurança infantil, deixar Log raw content desligado costuma ser o ponto: você consegue ver que um termo foi bloqueado e com que frequência sem copiar o termo de volta para a sua própria telemetria. Ligue-o por guardrail apenas quando precisar da substring para triagem; a configuração não é retroativa. Veja Feed de matches e Logging e privacidade.

Cada edição em um guardrail Brand escreve uma linha de histórico versionada na mesma transação — faça o diff de quaisquer duas versões e reverta a partir da visão History. Veja Versionamento.

7. Para onde ir a seguir

Filtros de palavras sensíveis

A mecânica de denylist de keyword por trás de cada preset Brand, em profundidade.

Bloquear segredos

Pegue chaves de API e credenciais com o preset Secrets Blocker.

Ajustar falsos positivos

Marque falsos positivos e aperte denylists a partir do feed de Matches.

Templates

A biblioteca completa de presets em todas as categorias.

Presets Brand gateiam conteúdo. Para deter um modelo que foi desviado da marca por um prompt malicioso, combine-os com o guardrail de prompt-injection e a ameaça de jailbreaks. Para o motor completo — estágios, regras avançadas e rotas — leia a referência de Guardrails.

​1. Brand safety ai em um preset

Palavrões

Menções a concorrentes

Segurança infantil

​2. Os presets Brand, exatamente como entregues

​3. Aplique um preset Brand no console

​4. Um exemplo concreto

​5. Teste antes de vincular

​6. Veja o que disparou

​7. Para onde ir a seguir

Filtros de palavras sensíveis

Bloquear segredos

Ajustar falsos positivos

Templates

1. Brand safety ai em um preset

2. Os presets Brand, exatamente como entregues

3. Aplique um preset Brand no console

4. Um exemplo concreto

5. Teste antes de vincular

6. Veja o que disparou

7. Para onde ir a seguir