Aplicar una postura de seguridad cambia una configuración del espacio de
trabajo, así que los pasos 2 y 5 necesitan el rol Developer. El feed de
Matches del guardrail (paso 4) está abierto a cualquier miembro; el feed
de Events del firewall también necesita Developer.
Actívalo en 5 pasos
Obtén una clave API
Si aún no tienes una, crea una clave — ver
Obtener una clave API. Dale esta clave
al agente que quieres asegurar. Todo lo que sigue se vincula a tu espacio
de trabajo, así que la misma postura cubre cada clave en él.
Aplica la línea base de Agentes Seguros
En la consola, abre Firewall → Posture y aplica el
nivel de autonomía
balanced (rol Developer).En una transacción esto establece tanto tu postura de Firewall como de
Guardrails: las llamadas a herramienta se auditan y se marca PII, mientras
las acciones más destructivas (como el shell destructivo) se deniegan —
así observas antes de aplicar ampliamente. Es un solo interruptor con
deshacer de un clic. (Para una pasada que no bloquee nada en absoluto,
empieza en permissive.)Envía una solicitud exactamente como antes
Nada de tu llamada cambia. Usa la misma clave, la misma forma de
OpenAI:La solicitud pasa. Bajo
balanced no se bloquea — se observa. El email
se marca y cualquier llamada a herramienta que haga tu agente se registra.Ve lo que tu agente realmente hizo
Dos feeds, ambos con alcance de espacio de trabajo:
- Firewall → Events / Runs — cada llamada a herramienta que hizo tu agente, su veredicto y qué superficie alcanzó (la herramienta que anunció, la llamada que emitió el modelo, un despacho MCP o un destino saliente).
- Guardrails → Matches — cada regla que se disparó, como el email marcado, agrupadas por guardrail y acción.
Endurece para aplicar
Una vez que los feeds se ven correctos, cambia el nivel de autonomía a
tight en la misma página de Firewall → Posture (rol
Developer).Ahora la aplicación está en vivo: PII se enmascara antes de que el modelo
lo vea, los secretos se bloquean de tus solicitudes y las llamadas de
shell destructivo y el egress SSRF se deniegan. Una llamada a herramienta
denegada regresa como HTTP 400 firewall_blocked; un prompt bloqueado
regresa como HTTP 400 guardrail_blocked — y un bloqueo no te cuesta
cuota. Sin cambios en la aplicación — la siguiente solicitud ya está
gobernada.Qué acabas de activar
| Capa | Bajo balanced | Bajo tight |
|---|---|---|
| Guardrails (texto) | PII marcada (solo-auditoría) | PII enmascarada, secretos bloqueados |
| Firewall (acciones) | Auditado; shell destructivo denegado | Defecto-deny; shell destructivo + egress SSRF denegados |
| Visibilidad | Completa — Events + Matches | Completa — Events + Matches |
¿Quedó demasiado estricto?
Cada cambio de autonomía es una transacción con deshacer de un clic, así que puedes volver directamente a tu postura anterior desde la página del Firewall (o la API de deshacer). También puedes simplemente volver a aplicar un nivel más suave (balanced o permissive) en cualquier momento.
Próximos pasos
La línea base de Agentes Seguros
Qué establece cada nivel de autonomía y cómo simular antes de aplicar.
Modos de aplicación
Observe → shadow → enforce, el despliegue seguro en detalle.
Guardrails
Crea tus propias reglas de contenido más allá de la línea base.
Agent Firewall
Crea listas de permitidos de herramientas, verificaciones de argumentos y
reglas de egress.
