1. Seguridad de marca de IA en un preset
La categoría Brand en el selector de plantillas de guardrail es un conjunto de denylists de keyword. Cada preset es una sola reglakeyword que aplicas
en un clic y luego editas — cambia los términos semilla por tu propia lista. No
hay llamada a modelo, ni salto de red, ni cambio de SDK: la política vive en el
gateway, y tu app sigue llamando a /v1/chat/completions exactamente como antes.
Profanidad
Una denylist que bloquea groserías o términos prohibidos en la solicitud
— o una variante mask que los redacta en su lugar.
Menciones a competidores
Bloquea (o marca) cualquier mención de nombres que listes — evita que un
copiloto hable bien de la competencia.
Seguridad infantil
Una denylist conservadora para términos de seguridad infantil que rellenas
desde tus propios estándares, bloqueada en la solicitud.
2. Los presets Brand, exactamente como vienen
Abre el botón dividido New guardrail en la vista Guardrails de la consola y elige la categoría de plantillas Brand. Cinco semillas viven ahí:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Una sola regla
keyword, etapa input, acción block. Viene con
términos placeholder — edita la lista a tus palabras prohibidas reales,
nombres de competidores o frases vedadas. Una coincidencia devuelve HTTP
400 guardrail_blocked antes de que el prompt salga del gateway.Profanity Filter (mask)
Profanity Filter (mask)
La misma denylist, pero acción mask y etapa both — las palabras de
la denylist se reemplazan con
[REDACTED] en vez de rechazar la llamada. La
alternativa más suave cuando quieres que la solicitud pase limpiada en vez de
rechazada.Profanity Multilingual
Profanity Multilingual
Una regla de bloqueo
keyword sembrada con placeholders por mercado (zh, es,
fr, de, ja, ar). Reemplaza cada uno con los términos específicos de la región
que tu política prohíbe — los términos semilla son deliberadamente genéricos.Competitor Mentions
Competitor Mentions
Una regla
keyword, etapa input, acción block, sembrada con un solo
placeholder. Añade los nombres de tus competidores; cambia la acción a
flag para monitorear menciones sin rechazar tráfico.Child Safety Keywords
Child Safety Keywords
Una denylist
keyword conservadora, etapa input, acción block. La
semilla es un placeholder intencional — rellénala con los términos exactos de
tu propia política o estándares de seguridad antes de confiar en ella.Un preset es una semilla, no un candado. Cada preset Brand viene con
términos placeholder para que la regla sea válida de fábrica — se espera que
edites la denylist para tu marca antes de vincular una clave. Los presets
intencionalmente no vienen con listas reales de palabras prohibidas o de
seguridad infantil.
3. Aplica un preset Brand en la consola
Cada paso aquí es una acción de consola bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final/v1/* usa una clave de relay sk-orca-....
Abre la plantilla
En la consola, abre Guardrails, haz clic en el botón dividido New
guardrail y elige Competitor Mentions (o cualquier preset Brand) de la
categoría de plantillas Brand.
Edita la denylist
Reemplaza el placeholder semilla con tus términos reales — p. ej. los
nombres de tus competidores. Dale un nombre al guardrail (≤ 64 caracteres),
como
brand-safety, y guarda.Pruébalo
Abre la pestaña Test, pega una muestra en la etapa
input y ejecuta la
política localmente — sin llamada upstream, sin cuota (ver
§5).Vincula una clave
Edita una clave API y elige
brand-safety del desplegable Guardrail
(establece guardrail_id en la clave), o márcalo como valor por defecto
del espacio de trabajo. Ver
Vincular a una clave y
Valor por defecto de cuenta.4. Un ejemplo concreto
Un guardrail de mención a competidor llamadobrand-safety está vinculado a una
clave. El placeholder semilla ha sido reemplazado con el nombre real Acme.
Llama al gateway exactamente como antes — sin nuevas cabeceras:
keyword coincide con Acme en la solicitud, y el gateway rechaza la
llamada con HTTP 400 guardrail_blocked — nombrando el guardrail y la regla
que se disparó — antes de que nada llegue al modelo upstream.
Prefiere mask sobre block para profanidad cuando prefieras limpiar el
prompt en vez de rechazarlo — las palabras de la denylist se renderizan a
[REDACTED] y la solicitud pasa. Prefiere flag para menciones a
competidores cuando quieras medir la exposición antes de empezar a bloquear. La
página de Acciones cubre el trade-off
completo de block / mask / flag.
5. Prueba antes de vincular
Prueba que la denylist hace lo que esperas antes de que cualquier clave la apunte. Abre la pestaña Test dentro del editor, pega una muestra, elige la etapainput y ejecuta:
6. Ve qué se disparó
Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo (GET /api/guardrail/match, Member). La propia subcadena coincidente
(la palabra prohibida, el nombre del competidor) se registra solo cuando
Log raw content está activado, que está apagado por defecto.
Para una denylist de seguridad infantil, dejar Log raw content apagado suele
ser el punto: llegas a ver que un término fue bloqueado y con qué frecuencia
sin copiar el término de vuelta a tu propia telemetría. Actívalo por guardrail
solo cuando necesites la subcadena para triaje; el ajuste no es retroactivo. Ver
Feed de coincidencias y
Registro y privacidad.
7. Dónde ir a continuación
Filtros de palabras sensibles
Las mecánicas de denylist de keyword detrás de cada preset Brand, en
profundidad.
Bloquear secretos
Captura claves API y credenciales con el preset Secrets Blocker.
Afinar falsos positivos
Marca falsos positivos y ajusta denylists desde el feed de Matches.
Plantillas
La biblioteca completa de presets a través de cada categoría.
