Guardrails vs. Agent Firewall — cuándo usar cuál

La respuesta corta: Los guardrails gobiernan texto; el Firewall gobierna acciones. Son complementarios — una sola solicitud fluye a través de ambos — y la forma más rápida de configurarlos juntos es un nivel de autonomía. El resto de esta página es para los casos donde necesitas saber qué capa posee una amenaza específica.

Rol requerido. Cualquier miembro del espacio de trabajo puede leer políticas y el feed de Matches del guardrail; el feed de Events del firewall requiere el rol Developer. Crear o editar guardrails o políticas de firewall también requiere Developer o superior.

1. La distinción en una línea

Capa	Gobierna	Ve
Guardrails	Texto — lo que el modelo lee y escribe	Contenido del prompt, contenido de la respuesta
Agent Firewall	Acciones — lo que hace el agente	Llamadas a herramienta, despachos MCP, destinos de red salientes

Los guardrails se disparan antes de la llamada upstream (en el prompt) y después de ella (en la respuesta). El Firewall se dispara en cada llamada a herramienta que el modelo emite o que el agente emite — independientemente del modelo o proveedor que atendió el turno.

2. Comparación lado a lado

Dimensión	Guardrails	Agent Firewall
Gobierna	Texto del prompt y texto de respuesta del modelo	Llamadas a herramienta, despachos MCP, destinos de egress, coste del agente
Ve	El mensaje del usuario, el prompt de sistema y la respuesta del modelo	Nombre de herramienta, argumentos de llamada, los tool_calls que emite el modelo, host/IP saliente
Se adjunta vía	`guardrail_id` en la clave API	`firewall_policy_id` en la clave API
Tipos de regla	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Glob de nombre de herramienta + cláusulas de argumentos + alcance de egress + propiedad de skill
Amenazas de ejemplo	PII en prompts, secretos de API en respuestas, jailbreaks, salida fuera de tema, contexto sobredimensionado	Llamada a herramienta peligrosa, SSRF, exfiltración de datos, bucle de coste de agente descontrolado, servidor MCP no aprobado
Veredictos / acciones	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Cuándo se dispara	Etapa de entrada: antes de la llamada al modelo; etapa de salida: después de que el modelo responde	En cada llamada a herramienta que el modelo emite o que el agente emite
Modo shadow / observe	No — los guardrails se disparan o no se disparan	Sí — el modo shadow degrada los veredictos aplicantes a `audit` para un despliegue seguro

3. Amenaza → qué capa

Usa esta tabla para enrutar un nuevo requisito de seguridad al control correcto:

Amenaza	Acude a
PII en un mensaje del usuario	Guardrails — regla `pii` de entrada (`mask` / `block`)
Secreto en la respuesta del modelo	Guardrails — regla de secretos de salida
Llamada a herramienta peligrosa (`shell.exec rm -rf /`)	Firewall — `deny` en glob de herramienta + cláusula de argumentos
SSRF / exfiltración de datos vía URL saliente	Firewall — lista de permitidos/denegados de egress
Inyección de prompts de contenido no confiable	Ambos — guardrail de entrada + lista de permitidos del firewall
Secreto en un argumento de herramienta	Firewall `sanitize` + regla de secretos de Guardrails
Jailbreak / evasión de política	Guardrails — `llm_judge` / keyword / regex
Prompt sobredimensionado o coste de tokens	Guardrails — regla `max_chars`
Gasto de agente descontrolado (bucle de costes)	Firewall — veredicto `cap_cost`
Servidor MCP no aprobado	Firewall — deny de superficie MCP / `pending_approval`
Datos sensibles de un resultado de herramienta	Guardrails — regla de salida en la respuesta

El “por qué” profundo de cada emparejamiento vive en las páginas de profundización de Amenazas.

4. Usa ambos — los niveles de autonomía los configuran juntos

Los guardrails y el Firewall están diseñados para componerse, no para competir. Una sola solicitud pasa por ambos planos:

El guardrail de entrada se ejecuta — el texto del prompt se examina y opcionalmente se enmascara.
Llamada al modelo — el prompt (posiblemente saneado) llega al modelo upstream.
El Firewall — cada llamada a herramienta que emite el modelo se evalúa.
El guardrail de salida se ejecuta — el texto de respuesta del modelo se examina.

La forma más rápida de configurar ambos a la vez es un nivel de autonomía — una única configuración que atómicamente escribe una política de Firewall y una de Guardrails para todo el espacio de trabajo, con deshacer de un clic:

Nivel de autonomía	Postura del Firewall	Postura de Guardrails
`tight`	Defecto-deny; bloquear shell destructivo + egress SSRF	PII Shield + Secrets Blocker activados
`balanced`	Auditoría por defecto; denegar shell destructivo	PII Shield solo-auditoría (marca PII)
`permissive`	Sin reglas de aplicación; observe mode activado	Sin aplicación

Aplica un nivel de autonomía desde la consola del Firewall (POST /api/workspace/firewall/autonomy, Developer+), luego ajusta cada plano independientemente desde ahí.

5. Resumen

Los guardrails poseen el texto; el Firewall posee las acciones — ejecuta ambos, deja que el nivel de autonomía los conecte y endurece cada plano independientemente una vez que puedes ver el tráfico real de tus agentes.

Guardrails

Tipos de regla, detección de PII, LLM judge, arnés de eval y referencia de la API.

Agent Firewall

Veredictos, superficies, niveles de autonomía, aprobación HITL y referencia de la API.

Modos de aplicación Alcance y claves

​1. La distinción en una línea

​2. Comparación lado a lado

​3. Amenaza → qué capa

​4. Usa ambos — los niveles de autonomía los configuran juntos

​5. Resumen

Guardrails

Agent Firewall

1. La distinción en una línea

2. Comparación lado a lado

3. Amenaza → qué capa

4. Usa ambos — los niveles de autonomía los configuran juntos

5. Resumen