Seguridad de marca y tono

Ejecutas IA delante de clientes y tu marca está en juego. Un bot de soporte nunca debe decir groserías, un copiloto de marketing nunca debe nombrar a un competidor, y nada en tu tráfico debe tocar términos de seguridad infantil. La seguridad de marca y tono es la forma más rápida de aplicar las tres: la categoría de presets de guardrail Brand viene con denylists de keywords que vinculas a una clave, y el gateway examina cada llamada contra ellas antes de que llegue jamás a OpenAI, Anthropic o Google. Este es un aterrizaje enfocado para el caso de uso de seguridad de marca. Para el motor completo — cada tipo de regla, campo y ruta — ver la referencia de Guardrails.

1. Seguridad de marca de IA en un preset

La categoría Brand en el selector de plantillas de guardrail es un conjunto de denylists de keyword. Cada preset es una sola regla keyword que aplicas en un clic y luego editas — cambia los términos semilla por tu propia lista. No hay llamada a modelo, ni salto de red, ni cambio de SDK: la política vive en el gateway, y tu app sigue llamando a /v1/chat/completions exactamente como antes.

Profanidad

Una denylist que bloquea groserías o términos prohibidos en la solicitud — o una variante mask que los redacta en su lugar.

Menciones a competidores

Bloquea (o marca) cualquier mención de nombres que listes — evita que un copiloto hable bien de la competencia.

Seguridad infantil

Una denylist conservadora para términos de seguridad infantil que rellenas desde tus propios estándares, bloqueada en la solicitud.

Las tres son coincidencias de keyword deterministas — escaneos por subcadena sin distinguir mayúsculas y minúsculas que se ejecutan en la solicitud antes de la llamada upstream. No cuestan nada extra y nunca se serializan detrás de un modelo.

2. Los presets Brand, exactamente como vienen

Abre el botón dividido New guardrail en la vista Guardrails de la consola y elige la categoría de plantillas Brand. Cinco semillas viven ahí:

Profanity / Brand Safety (block)

Una sola regla keyword, etapa input, acción block. Viene con términos placeholder — edita la lista a tus palabras prohibidas reales, nombres de competidores o frases vedadas. Una coincidencia devuelve HTTP 400 guardrail_blocked antes de que el prompt salga del gateway.

Profanity Filter (mask)

La misma denylist, pero acción mask y etapa both — las palabras de la denylist se reemplazan con [REDACTED] en vez de rechazar la llamada. La alternativa más suave cuando quieres que la solicitud pase limpiada en vez de rechazada.

Profanity Multilingual

Una regla de bloqueo keyword sembrada con placeholders por mercado (zh, es, fr, de, ja, ar). Reemplaza cada uno con los términos específicos de la región que tu política prohíbe — los términos semilla son deliberadamente genéricos.

Competitor Mentions

Una regla keyword, etapa input, acción block, sembrada con un solo placeholder. Añade los nombres de tus competidores; cambia la acción a flag para monitorear menciones sin rechazar tráfico.

Child Safety Keywords

Una denylist keyword conservadora, etapa input, acción block. La semilla es un placeholder intencional — rellénala con los términos exactos de tu propia política o estándares de seguridad antes de confiar en ella.

Un preset es una semilla, no un candado. Cada preset Brand viene con términos placeholder para que la regla sea válida de fábrica — se espera que edites la denylist para tu marca antes de vincular una clave. Los presets intencionalmente no vienen con listas reales de palabras prohibidas o de seguridad infantil.

3. Aplica un preset Brand en la consola

Cada paso aquí es una acción de consola bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final /v1/* usa una clave de relay sk-orca-....

Abre la plantilla

En la consola, abre Guardrails, haz clic en el botón dividido New guardrail y elige Competitor Mentions (o cualquier preset Brand) de la categoría de plantillas Brand.

Edita la denylist

Reemplaza el placeholder semilla con tus términos reales — p. ej. los nombres de tus competidores. Dale un nombre al guardrail (≤ 64 caracteres), como brand-safety, y guarda.

Pruébalo

Abre la pestaña Test, pega una muestra en la etapa input y ejecuta la política localmente — sin llamada upstream, sin cuota (ver §5).

Vincula una clave

Edita una clave API y elige brand-safety del desplegable Guardrail (establece guardrail_id en la clave), o márcalo como valor por defecto del espacio de trabajo. Ver Vincular a una clave y Valor por defecto de cuenta.

4. Un ejemplo concreto

Un guardrail de mención a competidor llamado brand-safety está vinculado a una clave. El placeholder semilla ha sido reemplazado con el nombre real Acme. Llama al gateway exactamente como antes — sin nuevas cabeceras:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

La regla keyword coincide con Acme en la solicitud, y el gateway rechaza la llamada con HTTP 400 guardrail_blocked — nombrando el guardrail y la regla que se disparó — antes de que nada llegue al modelo upstream.

Un veredicto block no cuesta cuota. Un bloqueo en la etapa de entrada se dispara antes de que se mida el uso, y la solicitud se marca como skip-retry — reejecutar el mismo prompt contra otro canal simplemente volvería a bloquear. Ver el error guardrail_blocked.

Prefiere mask sobre block para profanidad cuando prefieras limpiar el prompt en vez de rechazarlo — las palabras de la denylist se renderizan a [REDACTED] y la solicitud pasa. Prefiere flag para menciones a competidores cuando quieras medir la exposición antes de empezar a bloquear. La página de Acciones cubre el trade-off completo de block / mask / flag.

5. Prueba antes de vincular

Prueba que la denylist hace lo que esperas antes de que cualquier clave la apunte. Abre la pestaña Test dentro del editor, pega una muestra, elige la etapa input y ejecuta:

Write a tweet praising Acme over us

El sandbox evalúa la política actual localmente y devuelve el veredicto — nada se envía upstream, nada se mide. Para un barrido contra un corpus de formulaciones, el arnés de Eval vive una pestaña al lado.

Una coincidencia de keyword es un escaneo por subcadena sin distinguir mayúsculas y minúsculas, así que class también coincidiría dentro de classic. Mantén las entradas de la denylist específicas, y afina falsos positivos desde el feed de Matches una vez que veas tráfico real.

6. Ve qué se disparó

Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo (GET /api/guardrail/match, Member). La propia subcadena coincidente (la palabra prohibida, el nombre del competidor) se registra solo cuando Log raw content está activado, que está apagado por defecto.

Para una denylist de seguridad infantil, dejar Log raw content apagado suele ser el punto: llegas a ver que un término fue bloqueado y con qué frecuencia sin copiar el término de vuelta a tu propia telemetría. Actívalo por guardrail solo cuando necesites la subcadena para triaje; el ajuste no es retroactivo. Ver Feed de coincidencias y Registro y privacidad.

Cada edición a un guardrail Brand escribe una fila de historial versionada en la misma transacción — haz diff de dos versiones cualesquiera y revierte desde la vista History. Ver Versionado.

7. Dónde ir a continuación

Filtros de palabras sensibles

Las mecánicas de denylist de keyword detrás de cada preset Brand, en profundidad.

Bloquear secretos

Captura claves API y credenciales con el preset Secrets Blocker.

Afinar falsos positivos

Marca falsos positivos y ajusta denylists desde el feed de Matches.

Plantillas

La biblioteca completa de presets a través de cada categoría.

Los presets Brand vetan contenido. Para detener un modelo que ha sido desviado de la marca por un prompt malicioso, emparéjalos con el guardrail de inyección de prompts y la amenaza de jailbreaks. Para el motor completo — etapas, reglas avanzadas y rutas — lee la referencia de Guardrails.

​1. Seguridad de marca de IA en un preset

Profanidad

Menciones a competidores

Seguridad infantil

​2. Los presets Brand, exactamente como vienen

​3. Aplica un preset Brand en la consola

​4. Un ejemplo concreto

​5. Prueba antes de vincular

​6. Ve qué se disparó

​7. Dónde ir a continuación

Filtros de palabras sensibles

Bloquear secretos

Afinar falsos positivos

Plantillas

1. Seguridad de marca de IA en un preset

2. Los presets Brand, exactamente como vienen

3. Aplica un preset Brand en la consola

4. Un ejemplo concreto

5. Prueba antes de vincular

6. Ve qué se disparó

7. Dónde ir a continuación