1. Las tres posturas de un vistazo
| Postura | Qué le ocurre al tráfico | Mecanismo | Cuándo usar |
|---|---|---|---|
| Observe | Todo el tráfico está permitido; las llamadas sin política se registran como brechas de cobertura | Observe mode a nivel de espacio de trabajo activado; las reglas de guardrail usan acción flag; el default_verdict del firewall es audit | Descubrimiento de línea base — entiende lo que tus agentes realmente hacen antes de escribir una sola regla |
| Shadow | El tráfico está permitido; una política evalúa y los bloques hipotéticos se registran como [shadow] would … | Flag shadow_mode por política en la política del firewall | Validación segura de preproducción — confirma que una política se dispara correctamente antes de que toque el tráfico |
| Enforce | Se aplican veredictos reales — deny bloquea, sanitize redacta, pending_approval retiene | Modo shadow desactivado; acciones de guardrail establecidas a block / mask; veredictos del firewall en vivo | Aplicación en producción después de haber verificado la política en shadow |
Requisito de rol. Cualquier miembro del espacio de trabajo puede leer
políticas, configuraciones y la vista de herramientas descubiertas; los feeds
de Events y Runs del firewall requieren el rol Developer. Cambiar
configuraciones, acciones de política o
shadow_mode también requiere
Developer o superior.2. Postura observe — mide antes de gobernar
La postura observe no es un solo interruptor. Es una combinación de tres mecanismos independientes que juntos producen “permite todo, registra todo”:Observe mode del firewall (configuración del espacio de trabajo)
Cuando una llamada a herramienta resuelve a ninguna política en absoluto — sin adjunto de clave y sin valor por defecto del espacio de trabajo — el observe mode a nivel de espacio de trabajo del firewall determina qué ocurre:- Observe mode activado: la llamada está permitida y se registra como una brecha de cobertura. La vista de Discovered Tools se llena con estos eventos de brecha, mostrando exactamente qué herramientas están ejecutando tus agentes sin ninguna regla que las cubra.
- Observe mode desactivado: la llamada está permitida silenciosamente — byte-idéntico a un espacio de trabajo que nunca habilitó la función.
Veredicto audit del firewall (por defecto de la política)
Cuando una política sí se resuelve pero ninguna regla coincide con una
llamada a herramienta, se aplica el default_verdict de la política. El
valor por defecto para default_verdict es audit — permite la llamada
y la registra para revisión. Una nueva política sin reglas y sin cambios de
configuración no bloquea nada y no permite nada silenciosamente: audita todo
lo que ve.
audit también es un veredicto normal de regla. Una regla que coincide y
produce audit deja pasar la llamada y la registra — el análogo del modo
de auditoría del guardrail para el firewall.
Acción flag del guardrail (acción por regla)
En el lado de los guardrails, la acción flag es el equivalente observe: la
regla se dispara, se registra una coincidencia en el feed de Matches y la
solicitud continúa sin cambios. Sin bloqueo. Sin redacción. Usa flag
cuando quieras medir una regla — ver con qué frecuencia se dispara y en qué
— antes de comprometerte con block o mask.
Juntos, estos tres producen la postura observe: el observe mode captura las llamadas a herramienta sin cobertura; los veredictos
audit cubren las
llamadas a herramienta bajo una política pero no aún bajo una regla
específica; las acciones flag cubren las verificaciones de guardrail que
aún no estás listo para aplicar.
3. Postura shadow — valida antes de aplicar
El modo shadow es un flag por política (shadow_mode: true) en una
política de firewall. Cuando está activado:
- La política evalúa cada llamada a herramienta exactamente como lo haría en producción — las reglas se comparan, los veredictos se calculan, los predicados de argumentos se prueban.
- Cada veredicto aplicante (
deny,sanitize,pending_approval) se degrada aauditantes de llegar a la herramienta. - La razón registrada tiene el prefijo
[shadow] would …para que puedas ver en el feed de eventos exactamente qué se hubiera bloqueado, saneado o retenido.
Los guardrails no tienen un equivalente
shadow_mode a nivel de política
— usa la acción flag por regla para observar verificaciones individuales de
guardrail antes de cambiar a block o mask.4. Postura enforce — veredictos reales, consecuencias reales
En la postura enforce, nada se degrada:- Firewall
deny→ el agente ve un error de herramienta (MCP) o HTTP 400firewall_blocked(superficie inbound). El error nombra la herramienta y la razón. Marcado skip-retry. - Firewall
sanitize→ las subcadenas coincidentes se redactan de los argumentos de la herramienta y la llamada limpia se reenvía. - Firewall
pending_approval→ la llamada se retiene; el agente recibe HTTP 400firewall_approval_pendingy un id de aprobación sobre el que hacer polling. - Guardrail
block→ HTTP 400guardrail_blocked, nombrando el guardrail y la regla que se disparó. No cuesta cuota. - Guardrail
mask→ la coincidencia se redacta (p. ej.jane@acme.com→[EMAIL]) y la solicitud continúa con el texto saneado.
shadow_mode en la política del
firewall y cambia las acciones de regla del guardrail de flag a block o
mask según corresponda.
5. Despliegue recomendado
Observe — descubre lo que hacen tus agentes
Activa el observe mode del espacio de trabajo (
PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Deja
el firewall sin política (o una política cuyo default_verdict sea
audit). Añade acciones flag a cualquier regla de guardrail que quieras
medir.Observa cómo la vista de Discovered Tools se llena con cada llamada a
herramienta que hacen tus agentes, marcadas covered o gap. Usa
esto como entrada para escribir tus primeras reglas de política — estás
escribiendo reglas para tráfico real, no hipotético.Deja esto correr hasta que la vista de Discovered Tools se estabilice y
tengas suficientes datos para escribir reglas intencionales.Shadow — valida antes de aplicar
Crea una política de firewall con
shadow_mode: true. Adjúntala a las
claves que quieres gobernar (o establécela como el valor por defecto del
espacio de trabajo). Para los guardrails, mantén las acciones de regla
como flag en esta etapa.La política ahora evalúa cada llamada a herramienta real y registra qué
haría. Abre las vistas de Events y Runs y filtra por el prefijo
[shadow]. Confirma:- Se dispara en las herramientas y los patrones de argumentos que pretendías.
- No se dispara en nada que quieras permitir (falsos positivos).
Enforce — activa el interruptor
Establece
shadow_mode: false en la política. Para cualquier regla de
guardrail que estabas observando con flag, cambia la acción a block o
mask según corresponda.Monitorea el feed de Events en busca de bloques inesperados en la
primera hora. La acción Undo en el log de auditoría de autonomía te
permite restaurar el estado previo con un clic si necesitas retroceder.6. Niveles de autonomía — establecer todo a la vez
Ajustar políticas regla por regla es el camino preciso. Los niveles de autonomía son el rápido — un único control que establece atómicamente la postura de Firewall y Guardrails de tu espacio de trabajo en una transacción, con deshacer de un clic:| Nivel | Postura producida |
|---|---|
permissive | Postura observe: sin política aplicante, sin guardrails, observe mode del espacio de trabajo activado — ves todo, nada se bloquea. Mapea al paso Observe anterior. |
balanced | Veredicto por defecto audit, pero el shell destructivo se deniega; PII Shield se ejecuta en modo solo-audit (marca PII); observe mode desactivado. La postura de inicio recomendada una vez que conoces la forma de tu tráfico. |
tight | Aplicación completa: defecto-deny, con shell destructivo y egress SSRF denegados; guardrails PII Shield + Secrets Blocker aplicados (examinan solicitudes en busca de PII y secretos); observe mode desactivado. |
POST /api/workspace/firewall/autonomy (Developer+). El endpoint
Simulate (GET /api/workspace/firewall/simulate?level=) previsualiza lo
que haría un cambio de nivel antes de aplicarlo.
Los niveles de autonomía son una capa de conveniencia sobre los mismos
mecanismos descritos anteriormente — establecen
default_verdict, observe
mode, las reglas del firewall y las acciones de regla del guardrail. No
activan/desactivan shadow_mode; ese permanece como un control manual por
política. Siempre puedes sobrescribir configuraciones individuales después
de aplicar un nivel.7. Mapa de mecanismos — qué configuración hace qué
Esta tabla es la referencia autoritativa. Los cuatro términos son distintos — no los confundas:| Término | Tipo | Qué controla |
|---|---|---|
| Observe mode | Configuración del espacio de trabajo | Comportamiento cuando una llamada a herramienta resuelve a ninguna política. Activado → registrar como brecha (Discovered Tools). Desactivado → permitir silencioso. |
Veredicto audit | Veredicto de política / regla | Comportamiento para una llamada a herramienta bajo una política que coincide (o cae al valor por defecto). Permitir + registrar. El default_verdict por defecto. |
Acción flag | Acción de regla de guardrail | La verificación del guardrail permite el tráfico y registra una coincidencia. La acción observe-sin-enforce para los guardrails. |
shadow_mode | Flag por política de firewall | Degrada todos los veredictos aplicantes (deny/sanitize/pending_approval) a audit y prefija la razón con [shadow] would …. |
Línea base de Agentes Seguros
La postura de inicio recomendada y la configuración en cinco minutos para
la seguridad zero-trust de agentes.
Agent Firewall
Referencia completa para políticas, reglas, veredictos, modo shadow y el
gateway MCP.
