guardrails vs firewall: distinción en una línea, comparación lado a lado y un mapeo de amenaza a capa para ayudarte a decidir qué plano de seguridad de OrcaRouter captura cada riesgo.
La respuesta corta: Los guardrails gobiernan texto; el Firewall gobierna
acciones. Son complementarios — una sola solicitud fluye a través de ambos
— y la forma más rápida de configurarlos juntos es un nivel de autonomía.El resto de esta página es para los casos donde necesitas saber qué capa posee
una amenaza específica.
Rol requerido. Cualquier miembro del espacio de trabajo puede leer
políticas y el feed de Matches del guardrail; el feed de Events del firewall
requiere el rol Developer. Crear o editar guardrails o políticas de
firewall también requiere Developer o superior.
Llamadas a herramienta, despachos MCP, destinos de red salientes
Los guardrails se disparan antes de la llamada upstream (en el prompt) y
después de ella (en la respuesta). El Firewall se dispara en cada llamada a
herramienta que el modelo emite o que el agente emite — independientemente del
modelo o proveedor que atendió el turno.
4. Usa ambos — los niveles de autonomía los configuran juntos
Los guardrails y el Firewall están diseñados para componerse, no para
competir. Una sola solicitud pasa por ambos planos:
El guardrail de entrada se ejecuta — el texto del prompt se examina y
opcionalmente se enmascara.
Llamada al modelo — el prompt (posiblemente saneado) llega al modelo
upstream.
El Firewall — cada llamada a herramienta que emite el modelo se evalúa.
El guardrail de salida se ejecuta — el texto de respuesta del modelo se
examina.
La forma más rápida de configurar ambos a la vez es un nivel de autonomía
— una única configuración que atómicamente escribe una política de Firewall y
una de Guardrails para todo el espacio de trabajo, con deshacer de un clic:
Aplica un nivel de autonomía desde la consola del Firewall (POST /api/workspace/firewall/autonomy, Developer+), luego ajusta cada plano
independientemente desde ahí.
Los guardrails poseen el texto; el Firewall posee las acciones — ejecuta
ambos, deja que el nivel de autonomía los conecte y endurece cada plano
independientemente una vez que puedes ver el tráfico real de tus agentes.
Guardrails
Tipos de regla, detección de PII, LLM judge, arnés de eval y referencia
de la API.
Agent Firewall
Veredictos, superficies, niveles de autonomía, aprobación HITL y
referencia de la API.