Modos de aplicación: observe, shadow y enforce

Antes de que una regla bloquee el tráfico de producción, quieres saber que se dispara en las cosas correctas y en nada más. OrcaRouter te da tres posturas — observe, shadow y enforce — que te permiten desplegar incrementalmente, con visibilidad en cada paso y sin sorpresas. Esta página explica qué significa mecánicamente cada postura, cómo transitar entre ellas y cómo los niveles de autonomía establecen todo en un paso.

1. Las tres posturas de un vistazo

Postura	Qué le ocurre al tráfico	Mecanismo	Cuándo usar
Observe	Todo el tráfico está permitido; las llamadas sin política se registran como brechas de cobertura	Observe mode a nivel de espacio de trabajo activado; las reglas de guardrail usan acción `flag`; el `default_verdict` del firewall es `audit`	Descubrimiento de línea base — entiende lo que tus agentes realmente hacen antes de escribir una sola regla
Shadow	El tráfico está permitido; una política evalúa y los bloques hipotéticos se registran como `[shadow] would …`	Flag `shadow_mode` por política en la política del firewall	Validación segura de preproducción — confirma que una política se dispara correctamente antes de que toque el tráfico
Enforce	Se aplican veredictos reales — deny bloquea, sanitize redacta, pending_approval retiene	Modo shadow desactivado; acciones de guardrail establecidas a `block` / `mask`; veredictos del firewall en vivo	Aplicación en producción después de haber verificado la política en shadow

Requisito de rol. Cualquier miembro del espacio de trabajo puede leer políticas, configuraciones y la vista de herramientas descubiertas; los feeds de Events y Runs del firewall requieren el rol Developer. Cambiar configuraciones, acciones de política o shadow_mode también requiere Developer o superior.

2. Postura observe — mide antes de gobernar

La postura observe no es un solo interruptor. Es una combinación de tres mecanismos independientes que juntos producen “permite todo, registra todo”:

Observe mode del firewall (configuración del espacio de trabajo)

Cuando una llamada a herramienta resuelve a ninguna política en absoluto — sin adjunto de clave y sin valor por defecto del espacio de trabajo — el observe mode a nivel de espacio de trabajo del firewall determina qué ocurre:

Observe mode activado: la llamada está permitida y se registra como una brecha de cobertura. La vista de Discovered Tools se llena con estos eventos de brecha, mostrando exactamente qué herramientas están ejecutando tus agentes sin ninguna regla que las cubra.
Observe mode desactivado: la llamada está permitida silenciosamente — byte-idéntico a un espacio de trabajo que nunca habilitó la función.

El observe mode es la superficie de detección de brechas. Solo se dispara cuando no se resuelve ninguna política. No es lo mismo que tener una política establecida en audit.

Veredicto `audit` del firewall (por defecto de la política)

Cuando una política sí se resuelve pero ninguna regla coincide con una llamada a herramienta, se aplica el default_verdict de la política. El valor por defecto para default_verdict es audit — permite la llamada y la registra para revisión. Una nueva política sin reglas y sin cambios de configuración no bloquea nada y no permite nada silenciosamente: audita todo lo que ve. audit también es un veredicto normal de regla. Una regla que coincide y produce audit deja pasar la llamada y la registra — el análogo del modo de auditoría del guardrail para el firewall.

Acción `flag` del guardrail (acción por regla)

En el lado de los guardrails, la acción flag es el equivalente observe: la regla se dispara, se registra una coincidencia en el feed de Matches y la solicitud continúa sin cambios. Sin bloqueo. Sin redacción. Usa flag cuando quieras medir una regla — ver con qué frecuencia se dispara y en qué — antes de comprometerte con block o mask.

Juntos, estos tres producen la postura observe: el observe mode captura las llamadas a herramienta sin cobertura; los veredictos audit cubren las llamadas a herramienta bajo una política pero no aún bajo una regla específica; las acciones flag cubren las verificaciones de guardrail que aún no estás listo para aplicar.

3. Postura shadow — valida antes de aplicar

El modo shadow es un flag por política (shadow_mode: true) en una política de firewall. Cuando está activado:

La política evalúa cada llamada a herramienta exactamente como lo haría en producción — las reglas se comparan, los veredictos se calculan, los predicados de argumentos se prueban.
Cada veredicto aplicante (deny, sanitize, pending_approval) se degrada a audit antes de llegar a la herramienta.
La razón registrada tiene el prefijo [shadow] would … para que puedas ver en el feed de eventos exactamente qué se hubiera bloqueado, saneado o retenido.

El modo shadow es tu interruptor de despliegue seguro. Escribe una política, activa shadow, apunta tráfico real a ella, observa las vistas de eventos y ejecuciones durante unas horas o días, confirma que la política se dispara en las herramientas correctas y nada inesperado, luego desactiva shadow para empezar a aplicar.

Los guardrails no tienen un equivalente shadow_mode a nivel de política — usa la acción flag por regla para observar verificaciones individuales de guardrail antes de cambiar a block o mask.

4. Postura enforce — veredictos reales, consecuencias reales

En la postura enforce, nada se degrada:

Firewall deny → el agente ve un error de herramienta (MCP) o HTTP 400 firewall_blocked (superficie inbound). El error nombra la herramienta y la razón. Marcado skip-retry.
Firewall sanitize → las subcadenas coincidentes se redactan de los argumentos de la herramienta y la llamada limpia se reenvía.
Firewall pending_approval → la llamada se retiene; el agente recibe HTTP 400 firewall_approval_pending y un id de aprobación sobre el que hacer polling.
Guardrail block → HTTP 400 guardrail_blocked, nombrando el guardrail y la regla que se disparó. No cuesta cuota.
Guardrail mask → la coincidencia se redacta (p. ej. jane@acme.com → [EMAIL]) y la solicitud continúa con el texto saneado.

Para llegar a la postura enforce: desactiva shadow_mode en la política del firewall y cambia las acciones de regla del guardrail de flag a block o mask según corresponda.

5. Despliegue recomendado

Observe — descubre lo que hacen tus agentes

Activa el observe mode del espacio de trabajo (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Deja el firewall sin política (o una política cuyo default_verdict sea audit). Añade acciones flag a cualquier regla de guardrail que quieras medir.Observa cómo la vista de Discovered Tools se llena con cada llamada a herramienta que hacen tus agentes, marcadas covered o gap. Usa esto como entrada para escribir tus primeras reglas de política — estás escribiendo reglas para tráfico real, no hipotético.Deja esto correr hasta que la vista de Discovered Tools se estabilice y tengas suficientes datos para escribir reglas intencionales.

Shadow — valida antes de aplicar

Crea una política de firewall con shadow_mode: true. Adjúntala a las claves que quieres gobernar (o establécela como el valor por defecto del espacio de trabajo). Para los guardrails, mantén las acciones de regla como flag en esta etapa.La política ahora evalúa cada llamada a herramienta real y registra qué haría. Abre las vistas de Events y Runs y filtra por el prefijo [shadow]. Confirma:

Se dispara en las herramientas y los patrones de argumentos que pretendías.
No se dispara en nada que quieras permitir (falsos positivos).

Ajusta las reglas, re-observa, repite. Cuando el log de shadow se vea correcto, continúa.

Enforce — activa el interruptor

Establece shadow_mode: false en la política. Para cualquier regla de guardrail que estabas observando con flag, cambia la acción a block o mask según corresponda.Monitorea el feed de Events en busca de bloques inesperados en la primera hora. La acción Undo en el log de auditoría de autonomía te permite restaurar el estado previo con un clic si necesitas retroceder.

6. Niveles de autonomía — establecer todo a la vez

Ajustar políticas regla por regla es el camino preciso. Los niveles de autonomía son el rápido — un único control que establece atómicamente la postura de Firewall y Guardrails de tu espacio de trabajo en una transacción, con deshacer de un clic:

Nivel	Postura producida
`permissive`	Postura observe: sin política aplicante, sin guardrails, observe mode del espacio de trabajo activado — ves todo, nada se bloquea. Mapea al paso Observe anterior.
`balanced`	Veredicto por defecto `audit`, pero el shell destructivo se deniega; PII Shield se ejecuta en modo solo-audit (marca PII); observe mode desactivado. La postura de inicio recomendada una vez que conoces la forma de tu tráfico.
`tight`	Aplicación completa: defecto-deny, con shell destructivo y egress SSRF denegados; guardrails PII Shield + Secrets Blocker aplicados (examinan solicitudes en busca de PII y secretos); observe mode desactivado.

Aplica vía POST /api/workspace/firewall/autonomy (Developer+). El endpoint Simulate (GET /api/workspace/firewall/simulate?level=) previsualiza lo que haría un cambio de nivel antes de aplicarlo.

Los niveles de autonomía son una capa de conveniencia sobre los mismos mecanismos descritos anteriormente — establecen default_verdict, observe mode, las reglas del firewall y las acciones de regla del guardrail. No activan/desactivan shadow_mode; ese permanece como un control manual por política. Siempre puedes sobrescribir configuraciones individuales después de aplicar un nivel.

7. Mapa de mecanismos — qué configuración hace qué

Esta tabla es la referencia autoritativa. Los cuatro términos son distintos — no los confundas:

Término	Tipo	Qué controla
Observe mode	Configuración del espacio de trabajo	Comportamiento cuando una llamada a herramienta resuelve a ninguna política. Activado → registrar como brecha (Discovered Tools). Desactivado → permitir silencioso.
Veredicto `audit`	Veredicto de política / regla	Comportamiento para una llamada a herramienta bajo una política que coincide (o cae al valor por defecto). Permitir + registrar. El `default_verdict` por defecto.
Acción `flag`	Acción de regla de guardrail	La verificación del guardrail permite el tráfico y registra una coincidencia. La acción observe-sin-enforce para los guardrails.
`shadow_mode`	Flag por política de firewall	Degrada todos los veredictos aplicantes (deny/sanitize/pending_approval) a `audit` y prefija la razón con `[shadow] would …`.

Línea base de Agentes Seguros

La postura de inicio recomendada y la configuración en cinco minutos para la seguridad zero-trust de agentes.

Agent Firewall

Referencia completa para políticas, reglas, veredictos, modo shadow y el gateway MCP.

Los modos de aplicación no son un binario on/off. Transita por observe → shadow → enforce y tus reglas están verificadas en tráfico real antes de que alguna vez lo bloqueen.

​1. Las tres posturas de un vistazo

​2. Postura observe — mide antes de gobernar

​Observe mode del firewall (configuración del espacio de trabajo)

​Veredicto audit del firewall (por defecto de la política)

​Acción flag del guardrail (acción por regla)

​3. Postura shadow — valida antes de aplicar

​4. Postura enforce — veredictos reales, consecuencias reales

​5. Despliegue recomendado

​6. Niveles de autonomía — establecer todo a la vez

​7. Mapa de mecanismos — qué configuración hace qué

Línea base de Agentes Seguros

Agent Firewall

1. Las tres posturas de un vistazo

2. Postura observe — mide antes de gobernar

Observe mode del firewall (configuración del espacio de trabajo)

Veredicto `audit` del firewall (por defecto de la política)

Acción `flag` del guardrail (acción por regla)

3. Postura shadow — valida antes de aplicar

4. Postura enforce — veredictos reales, consecuencias reales

5. Despliegue recomendado

6. Niveles de autonomía — establecer todo a la vez

7. Mapa de mecanismos — qué configuración hace qué