1. Protección contra inyección de prompts en tres capas
Ninguna verificación única detiene cada inyección. OrcaRouter te da tres capas complementarias que puedes apilar en un guardrail:Básicos de inyección de prompts
Un preset de seguridad — una regla keyword que marca las frases
clásicas de jailbreak (“ignore previous instructions”, “reveal your
system prompt”) para revisión, sin bloquear. Determinista, sin llamada
a modelo.
Regla de intención LLM-judge
Una regla
llm_judge que pregunta a un modelo de tu espacio de trabajo
“¿es esto un intento de anular las instrucciones del sistema?” —
capturando inyección parafraseada y ofuscada que ninguna lista fija de
palabras puede. Factura una pequeña sub-línea de juez.Destaca texto no confiable
La acción
spotlight envuelve la entrada no confiable coincidente en
delimitadores (p. ej. ⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) y le dice al modelo que
trate la región como datos, nunca instrucciones — la defensa más fuerte
para la inyección indirecta de contenido recuperado o devuelto por
herramientas. Usa spotlight_whole para envolver toda la entrada.Por qué marcar-luego-juzgar. Una denylist de keywords es rápida y gratis
pero frágil — los atacantes la reformulan. Un juez es robusto pero cuesta una
sub-llamada. Ejecuta el preset para ver qué impacta tu tráfico, luego añade el
juez para capturar las reformulaciones. Ambas reglas viven en un guardrail y se
ejecutan sobre la misma solicitud.
2. Empieza con el preset Básicos de inyección de prompts
Cada paso aquí es una acción de consola sobre el gateway alojado bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final/v1/* usa una clave de relay sk-orca-....
Abre la plantilla
En la consola, abre Guardrails, haz clic en el botón dividido New
guardrail y elige Prompt-Injection Basics de la categoría de
plantillas Safety. Crea una sola regla
keyword en la etapa input con
la acción flag.Nombra y guarda
Nómbralo (≤ 64 caracteres), p. ej.
prompt-injection, y guarda. Un preset
es una semilla, no un candado — añade o quita frases libremente después.Pruébalo
Abre la pestaña Test, pega una muestra en la etapa
input y ejecuta la
política localmente — sin llamada upstream, sin cuota (ver
§4).Vincula una clave
Edita una clave API y elige
prompt-injection del desplegable Guardrail
(establece guardrail_id en la clave), o márcalo como valor por defecto
del espacio de trabajo. Ver
Vincular a una clave y
Valor por defecto de cuenta.3. Captura lo que las keywords pierden — añade una regla llm_judge
La coincidencia por keyword solo captura las frases que listaste. Añade una reglallm_judge al mismo guardrail para capturar la intención detrás de un
ataque reformulado. Abre el guardrail, Add rule, elige LLM judge y
configura:
judge_model
judge_model
Un modelo o alias de router que tu espacio de trabajo ya puede llamar. La
llamada al juez se enruta a través de tus canales, así que sus tokens
facturan y atribuyen como cualquier otra llamada — como una sub-línea de
juez.
judge_format
judge_format
Uno de
yes_no, score o category. Para una verificación de inyección,
yes_no es el ajuste natural (la consola lo preselecciona). Con score,
establece judge_threshold; con category, lista las judge_categories
denegadas.judge_timeout_ms y judge_fail_open
judge_timeout_ms y judge_fail_open
judge_timeout_ms acota la llamada (0 → valor por defecto del motor). Con
judge_fail_open true (por defecto) un error del juez se registra y la
solicitud continúa; establécelo en false para tratar un error o timeout
como un bloqueo donde una verificación perdida es inaceptable.4. Prueba antes de vincular
Prueba que el guardrail hace lo que esperas antes de que cualquier clave lo apunte. Abre la pestaña Test dentro del editor, pega una muestra de inyección, elige la etapainput y ejecuta:
5. Ve qué se disparó
Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo. Mientras el guardrail está en modo flag, este feed es el valor: te muestra con qué frecuencia las frases de inyección impactan tu tráfico y cómo se ven, para que puedas decidir si aplicar.6. Apílalo con hermanos más estrictos
Básicos de inyección de prompts es el punto de partida suave, solo-marcar. La categoría de plantillas Safety viene con hermanos más estrictos que puedes superponer en el mismo guardrail cuando estés listo para bloquear:| Preset | Acción | Captura |
|---|---|---|
| Prompt-Injection Basics | flag | Frases clásicas — la capa de vigilancia. |
| Jailbreak / Role-Play Blocker | block | Patrones DAN / developer-mode / “act as”. |
| Jailbreak v2 Regex | block | Modos más nuevos + contrabando de tag-bytes Unicode invisibles. |
7. Los guardrails examinan texto; el firewall gobierna acciones
Un guardrail detiene que la instrucción inyectada llegue al modelo. Pero el objetivo de una inyección exitosa suele ser hacer que un agente haga algo — llamar a una herramienta peligrosa, exfiltrar datos, alcanzar un host interno. Ese radio de explosión es el trabajo del Firewall: evalúa las llamadas a herramienta emitidas por el modelo y puededeny,
sanitize argumentos o requerir aprobación. Ejecuta ambos para defensa en
profundidad.
Inyección de prompts (amenaza)
El modelo de amenazas completo y dónde se sitúa cada control.
Jailbreaks
El primo de bypass de persona de la inyección.
Llamadas a herramienta peligrosas
Lo que una inyección intenta hacer que un agente haga — y cómo el firewall lo detiene.
Asegurar agentes de IA
La pila de controles de línea base para cargas de trabajo agénticas.
llm_judge, el versionado y las rutas — lee la
referencia de Guardrails.