rm -rf / que el modelo repite en una
herramienta de shell, un UNION SELECT que emite para que un ejecutor SQL lo
ejecute. Una política de contenido que solo piensa en PII o secretos pierde los
cuatro. La categoría de presets Agent existe exactamente para esta forma —
reglas regex deterministas que bloquean la solicitud o respuesta antes de
que una herramienta downstream actúe sobre ella.
Este es un aterrizaje enfocado para el caso de uso agéntico. Para el motor de
guardrails completo — cada tipo de regla, campo, etapa y ruta — ver la
referencia de Guardrails.
1. Por qué los guardrails de agente son una superficie distinta
Un guardrail examina contenido — el texto en la solicitud y el texto en la respuesta. Para un agente, ese texto se convierte en una acción: la URL se obtiene, el markdown se renderiza, la línea de shell se ejecuta, el SQL se ejecuta. Así que el mismo motorblock / mask que usas para PII hace doble
trabajo aquí — detiene un payload en el gateway antes de que la capa de
herramientas del agente pueda convertirlo en un efecto secundario.
La categoría Agent viene con cuatro presets, cada uno una regla regex con
acción block, repartidos entre las dos etapas:
URL Filter — input, block
URL Filter — input, block
Bloquea cualquier URL
http(s) en la solicitud. Úsalo para flujos de
agente donde las URLs salientes deben estar en allowlist en vez de abiertas.
El patrón sembrado coincide con cualquier URL; edita el regex para permitir
dominios específicos.Markdown Image Block — output, block
Markdown Image Block — output, block
Bloquea incrustaciones de imagen markdown (
) en la
respuesta del modelo. Defiende contra la exfiltración por renderizado de
imagen en clientes que auto-cargan imágenes remotas — un canal clásico de
fuga de datos donde una URL de imagen renderizada cuela datos hacia afuera.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Bloquea patrones obvios de inyección de shell en la solicitud (
rm -rf /, curl … | sh, wget … | bash, escalación sudo). Úsalo para flujos de
agente que puedan reenviar entrada del usuario a una herramienta de shell.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Bloquea respuestas del modelo que lleven payloads clásicos de inyección
SQL (
UNION SELECT, OR 1=1, DROP TABLE, terminadores de comentario).
Defensa en profundidad para herramientas que auto-ejecutan SQL que el modelo
produjo.Dos presets examinan la entrada, dos examinan la salida. URL Filter y Tool
Call Shell Block se disparan en la solicitud — antes de que el modelo se
ejecute, antes de que se mida cualquier cuota. Markdown Image Block y SQL
Injection in Output se disparan en la respuesta — después de que el modelo
responde, antes de que el contenido llegue a tu cliente o su capa de
herramientas. Saber en qué etapa vive un riesgo es todo el juego; ver
Etapa de entrada y
Etapa de salida.
2. Aplica un guardrail de agente en la consola
Cada paso aquí es una acción de consola sobre el gateway alojado bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final/v1/* usa una clave de relay sk-orca-... —
el guardrail en sí se configura completamente en la consola.
Abre la plantilla
En la consola, abre Guardrails, haz clic en el botón dividido New
guardrail y elige un preset de la categoría de plantillas Agent —
p. ej. Markdown Image Block. Crea la sola regla de bloqueo
regex en la
etapa correcta.Nombra y guarda
Dale un nombre (≤ 64 caracteres), p. ej.
agent-rails, y guarda. Un preset
es una semilla, no un candado — añade las otras tres reglas Agent o edita el
regex libremente después (ver §4).Pruébalo en el sandbox
Abre la pestaña Test dentro del editor, pega una muestra, elige la etapa
correspondiente y ejecuta la política actual localmente — sin llamada
upstream, sin cuota (ver §3).
Vincula una clave
Edita una clave API y elige
agent-rails del desplegable Guardrail
(establece guardrail_id en la clave), o márcalo como valor por defecto
del espacio de trabajo. Ver
Vincular a una clave y
Valor por defecto de cuenta.3. Pruébalo antes de vincular
Prueba que la regla se dispara antes de que cualquier clave la apunte. Abre la pestaña Test, elige la etapa output y pega una respuesta que una página envenenada por un atacante podría haber engatusado al modelo para que emitiera:4. Compón y afina las reglas
Los cuatro presets son semillas. El movimiento común es combinarlos en un solo guardrailagent-rails y ajustar cada regex a tu stack:
Allowlist de URLs
Empieza desde URL Filter, luego edita el
regex para que bloquee cada
URL excepto tus dominios sancionados — invierte la coincidencia a una
allowlist en vez de un bloqueo general.Crea tus propios detectores
Añade una regla
regex para
cualquier forma de payload que les importe a tus herramientas — patrones
RE2, tiempo lineal, sin backreferences. Los patrones compilan una vez y se
cachean entre solicitudes.5. Cómo se ve un bloqueo
Cada preset Agent usa la acción block. Una solicitud bloqueada devuelve HTTP 400 con el código de errorguardrail_blocked y un mensaje que nombra
el guardrail y la regla que se disparó:
guardrail_blocked.
6. Los guardrails son contenido; el firewall son llamadas a herramienta
Los guardrails de agente son una primera capa fuerte, pero razonan sobre cadenas, no sobre semántica de herramientas. Bloquean una línea de shell en el contenido — no entienden que el modelo emitió untool_call estructurado a
una herramienta destructiva, o que una solicitud saliente se dirige a una IP de
metadatos.
Esa capa de llamada a herramienta es el Firewall:
evalúa los tool_calls emitidos por el modelo, las tools/call de MCP y el
egress saliente con veredictos como allow / audit / deny /
pending_approval. Los dos se componen — los guardrails examinan el texto, el
firewall gobierna la acción.
Firewall
Gobierna las llamadas a herramienta emitidas por el modelo, las llamadas MCP
y el egress con veredictos allow / audit / deny / approval.
Guardrails vs. Firewall
Cuándo recurrir a un guardrail de contenido vs. un firewall de llamada a
herramienta — y cómo ejecutar ambos.
Asegurar agentes de IA
La pila de controles de agente completa: contenido, herramientas, MCP y
egress.
Agencia excesiva
La amenaza que estos rieles abordan — un agente que hace más de lo que
debería.
7. Ve qué se disparó
Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo. La propia subcadena coincidente se registra solo cuando Log raw content está activado, que está apagado por defecto. Agrupa y filtra el feed por guardrail, tipo de regla y acción para observar la tasa de impacto de tus reglas de agente y afinar falsos positivos. Ver Feed de coincidencias, Registro y privacidad y Afinar falsos positivos.8. Dónde ir a continuación
Reglas de la etapa de salida
Cómo funciona el examen de respuesta para Markdown Image Block y SQL
Injection in Output.
Detectores regex
Crea tus propios patrones RE2 para extender las reglas Agent.
Exfiltración de datos
El canal de exfil que cierra Markdown Image Block.
Llamadas a herramienta peligrosas
Por qué un riel de contenido por sí solo no es suficiente — emparéjalo con el
firewall.
