Todo aquí es de solo lectura o sandbox — sin bloqueo de cara al usuario, sin
tráfico de producción afectado. (Las reglas de palabra clave, regex y PII se
ejecutan enteramente en local; una regla
llm_judge aún llama a su modelo
configurado, así que una eval sobre una política de juez sí hace esa llamada.)
El punto es romper cosas antes del lanzamiento, en tus términos.1. Cómo hacer red team a un agente de IA antes del lanzamiento
Un red team de pre-lanzamiento responde tres preguntas, y OrcaRouter tiene una herramienta para cada una:¿Mi guardrail captura ataques?
Ejecuta el arnés Eval del guardrail contra corpora adversariales
incluidos y lee de vuelta precisión / recall / F1.
¿Qué rompería mi firewall?
Activa el modo shadow y observa qué llamadas a herramienta reales se
denegarían — sin denegar ninguna aún.
¿Es segura una postura más estricta?
Simula un nivel de autonomía para previsualizar exactamente qué
cambiaría contra tu tráfico antes de aplicarlo.
2. Puntúa tu guardrail contra corpora adversariales
La forma más rápida de saber si una política de contenido sobrevive al contacto con un atacante es lanzarle un corpus de ataques conocidos y leer la puntuación. La pestaña Eval del editor de guardrail hace exactamente eso: repite cada muestra de un corpus a través de tu política actual y compara el veredicto contra el resultado esperado de cada muestra — repitiendo el corpus en local contra tus reglas, nunca contra tráfico en vivo. OrcaRouter incluye corpora de red-team para que no tengas que conseguir los tuyos. Entre ellos:| Corpus | Qué es |
|---|---|
advbench_harmful_behaviors | El conjunto objetivo canónico de sufijo adversarial — cada fila es una solicitud insegura que un guardrail debería bloquear. |
anthropic_hh_redteam | Transcripciones reales de red-team humano multi-turno contra un asistente. |
deepset_prompt_injections | Solicitudes de inyección de prompts vs benignas etiquetadas — una línea base de precisión/recall para un bloqueo en la etapa de entrada. |
databricks_dolly_benign | Una línea base puramente benigna: una política demasiado estricta no debería bloquear ninguna de estas. |
deepset_prompt_injections:
- TP / FP / FN / TN — verdaderos/falsos positivos y negativos, donde un “falso positivo” incluye capturar un ataque con la clase de acción equivocada (p. ej. enmascarar cuando esperabas un bloqueo).
- Precisión / Recall / F1 — los números principales. Recall bajo significa que los ataques se cuelan; precisión baja significa que estás bloqueando tráfico benigno.
Dónde vive la defensa de inyección de prompts. El preset incluido
Prompt-Injection Basics es una regla de palabra clave en la acción flag
— expone frases de jailbreak comunes para revisión sin bloquear al usuario.
Para intención semántica de inyección que ninguna lista de palabras clave
captura, añade una regla
llm_judge y hazle red-team de la misma forma:
evalúala contra deepset_prompt_injections y anthropic_hh_redteam y lee el
F1. Ver la referencia de guardrail.3. Shadow del firewall contra tráfico real
Una eval de guardrail prueba texto contra un corpus fijo. Tu firewall, en cambio, necesita probarse contra la realidad desordenada de lo que tu agente realmente hace — y la forma más segura de hacer eso antes del lanzamiento es el modo shadow. El modo shadow es un flag por política que hace que el firewall evalúe y registre cada llamada a herramienta exactamente como lo haría en producción, pero degrade cada veredicto de aplicación aaudit. Un deny se convierte
en una fila de audit cuya razón se prefija [shadow] would …. Nada se bloquea.
Nada se rompe. Pero el feed de Events ahora te muestra la lista precisa de
llamadas que tu política habría rechazado.
Este es el red team del firewall: autora tu política más estricta pretendida,
activa el modo shadow, ejecuta tu agente a través de un ensayo de lanzamiento
realista, luego lee los eventos [shadow] would ….
Autora la política, luego hazle shadow
Autora la política, luego hazle shadow
Construye tu política de aplicación en la consola (Developer+) — para
un ensayo en seco de lanzamiento, establece
default_verdict a audit y
añade las reglas de deny que pretendes lanzar. Activa el modo shadow.
Toda la política ahora registra sin aplicar.Ejercita el agente como si fuera el día del lanzamiento
Ejercita el agente como si fuera el día del lanzamiento
Ejecuta tus flujos de agente reales contra el gateway con una clave adjunta
a la política en shadow. Cada llamada a herramienta — inbound, response,
despacho MCP, egress — se evalúa y registra.
Lee la lista de se-bloquearía
Lee la lista de se-bloquearía
Abre Firewall → Events (Developer+) y filtra por las razones
[shadow] would …. Cada una es una llamada que tu política habría denegado en
producción. Confirma que cada entrada es una llamada que quieres denegada
— y que nada legítimo está en la lista.Apaga shadow para ir en vivo
Apaga shadow para ir en vivo
Una vez que la lista de se-bloquearía esté limpia, apaga el modo shadow. La
siguiente llamada coincidente se aplica de verdad — sin otro cambio.
4. Simula una postura más estricta antes de comprometerte
El tercer movimiento de red team es el más barato: antes de aplicar un nivel de autonomía más estricto, simúlalo. El simulador previsualiza qué cambiaría aplicartight (o cualquier nivel) contra el tráfico reciente de tu espacio de trabajo
— cuántas llamadas pasarían a deny — sin escribir una sola fila de política.
tight?” antes del lanzamiento: si la
previsualización muestra un muro de denegaciones potenciales en llamadas de las
que tu agente depende, tienes reglas que suavizar antes del go-live, no un
incidente después.
Simulate es solo previsualización — nunca muta tus políticas. Aplicar un nivel
de autonomía es una acción separada de Developer+, y es una transacción con
deshacer de un clic si el resultado en vivo aún te sorprende.
5. La lista de verificación de red-team de pre-lanzamiento
Junta las tres pasadas y tienes una puerta de lanzamiento:| Pasada | Herramienta | Verde cuando |
|---|---|---|
| Política de contenido | Guardrail Eval vs corpora de ataque + benigno | Recall alto en ataques, sin bloqueos en benigno |
| Política de acción | Firewall modo shadow vs tráfico de ensayo | Cada [shadow] would … es intencionado |
| Cobertura | Modo observe + Discovered tools | Ninguna herramienta sorprendente está en un hueco de cobertura |
| Postura | Simulate del nivel de autonomía objetivo | La previsualización coincide con lo que esperas |
https://api.orcarouter.ai/v1/...
exactamente como antes.
6. Próximos pasos
Modos de aplicación
Observe → shadow → enforce, el lanzamiento seguro que esta receta ensaya.
La línea base de Agentes Seguros
Qué establece cada nivel de autonomía — y cómo
simulate lo previsualiza.Inyección de prompts
La amenaza contra la que tu eval de guardrail está puntuando.
Ir en vivo
El cambio a producción tras pasar el red team.
