1. Por qué importa un examen en el gateway para la defensa contra jailbreaks de LLM
El propio entrenamiento de seguridad del modelo es la primera línea, no la única. Los modelos se reentrenan sobre nuevos corpus de ataque, pero las frases de jailbreak evolucionan más rápido que los ciclos de entrenamiento. Una regla del gateway se dispara determinísticamente — no depende del estado interno del modelo — y aplica por igual en todos los modelos detrás de tu clave, incluyendo fine-tunes y pesos abiertos que pueden tener guardrails integrados más débiles. El examen del gateway también te da un rastro de auditoría. Cada regla que se dispara aterriza en el feed de Matches del espacio de trabajo — tipo de regla, acción, detalle, etapa — independientemente de lo que el modelo devolvió finalmente.2. Los dos tipos de regla para el examen de jailbreaks
El motor de guardrails de OrcaRouter ofrece dos enfoques complementarios. Úsalos juntos para defensa en profundidad.Verificación semántica — llm_judge
Una regla llm_judge ejecuta una verificación semántica contra un modelo en
tu espacio de trabajo. Escribes una rúbrica que describe qué cuenta como un
intento de jailbreak; el motor añade un apéndice de esquema JSON para que el
modelo devuelva un veredicto parseable.
judge_fail_open: true (el valor por defecto) significa que un tiempo de
espera o error del juez se registra como telemetría y la solicitud continúa
— la seguridad se degrada, la disponibilidad se preserva. Establécelo en
false para fallar cerrado si una verificación perdida es inaceptable para
tu caso de uso.
La llamada al juez se enruta a través de los canales de tu espacio de trabajo;
los tokens se facturan y atribuyen como una sub-línea de juez.
Lista de denegación literal — keyword y regex
Para frases de jailbreak conocidas y patrones estructurales, las reglas
keyword y regex son deterministas y añaden cero latencia — se ejecutan en
la ruta caliente sin llamada de red.
keyword es una coincidencia de subcadena sin distinguir mayúsculas y
minúsculas. Un término como do anything now también coincide con Do Anything Now y you can do anything now.
regex acepta patrones RE2 (tiempo lineal, sin backreferences). Úsalo para
patrones de trucos de codificación o variantes estructurales que una lista
literal no puede cubrir.
3. Examen en etapa de salida
El examen de entrada captura el intento. El examen en etapa de salida captura una evasión exitosa — una respuesta que no debería haberse producido independientemente de por qué. Añade una segunda reglallm_judge o keyword en stage: "output" para
marcar o bloquear una respuesta que contiene contenido no permitido antes de
que llegue al cliente.
Streaming vs. sin streaming
La acción importa aquí:| Acción | Sin streaming | Con streaming |
|---|---|---|
block | La respuesta se retiene; HTTP 400 guardrail_blocked | El escáner corta el stream en pleno vuelo y emite un mensaje de reemplazo — el contenido bloqueado nunca llega al cliente |
mask | La coincidencia se redacta en el texto devuelto | Actualmente solo aplica a respuestas sin streaming; la reescritura del stream en banda está en el roadmap |
block funciona correctamente.
Una solicitud bloqueada no cuesta cuota. Un bloqueo en etapa de salida
reembolsa la cuota preconsumida después de que la respuesta se rechaza. El
llamador recibe HTTP 400
guardrail_blocked nombrando el guardrail y la regla
que se disparó.4. El preset de seguridad Jailbreak
La consola incluye un preset Jailbreak en la categoría de plantillas Safety junto con Prompt-Injection Basics. Combina una reglallm_judge de entrada y una lista de denegación keyword de frases de
jailbreak conocidas como punto de partida listo para usar.
Para aplicarlo: abre /console/guardrails → New guardrail → navega la
biblioteca de plantillas → Safety → Jailbreak. El preset es una semilla
— edita la rúbrica, extiende la lista de palabras clave y añade reglas en
etapa de salida para adaptarlo a las necesidades de tu aplicación.
5. Prueba tu política antes de publicar
Antes de adjuntar un guardrail de jailbreak a una clave de producción, valídalo en el arnés de eval / red-team en la pestaña Eval dentro del editor del guardrail.- Corpus adversariales empaquetados — el gateway incluye conjuntos de red-team con variantes de jailbreak, evasión multilingüe y trucos de codificación. Ejecuta tu política contra ellos para medir la tasa de captura antes de que vea tráfico real.
- Corpus personalizados — sube tu propio JSONL para probar contra frases específicas de tu dominio o modelo de amenazas.
- Corpus de falsos positivos — los conjuntos benignos se incluyen junto a los adversariales. Ejecuta ambos para confirmar que no estás bloqueando tráfico legítimo.
- Las ejecuciones de eval se listan con puntuaciones; abre una ejecución para inspeccionar los fallos muestra por muestra y ajustar la rúbrica.
6. Forma de política recomendada
Una política robusta de jailbreak encapsula tres reglas en un solo guardrail:| # | Regla | Etapa | Acción | Por qué |
|---|---|---|---|---|
| 1 | keyword — frases de jailbreak conocidas | input | block | Cero latencia; captura frases conocidas determinísticamente |
| 2 | llm_judge — rúbrica de intención de jailbreak | input | block | Captura variantes novedosas y trucos de codificación que la lista de palabras clave pierde |
| 3 | llm_judge — rúbrica de respuesta no permitida | output | block | Defensa en profundidad: bloquea una evasión exitosa antes de que llegue al cliente |
block solo después de que una ejecución de eval muestre
una tasa de falsos positivos aceptable. Ver Modos de aplicación
para el patrón de despliegue observe → shadow → enforce usando acciones flag
y modo shadow.
7. Relación con la inyección de prompts
Los jailbreaks y las inyecciones de prompts son amenazas distintas pero superpuestas:- Un jailbreak apunta al entrenamiento de seguridad del modelo — el atacante controla el mensaje del usuario directo y lo elabora para suprimir los guardrails.
- Una inyección de prompts apunta al seguimiento de instrucciones — contenido no confiable (una página web, un resultado de herramienta, un documento) lleva instrucciones que el modelo trata como directivas.
llm_judge y keyword capturan ambas; la rúbrica difiere.
Para cargas de trabajo agénticas que ingieren documentos no confiables o
contenido web, ejecuta el examen de inyección junto con el examen de jailbreak.
Ver Inyección de prompts para los
patrones de regla específicos de inyección.
Referencia de guardrails
Referencia completa para tipos de regla, acciones, etapas, el LLM judge,
el arnés de eval y el feed de Matches.
Inyección de prompts
Examen de instrucciones inyectadas de contenido no confiable en pipelines
de agentes.
