Saltar al contenido principal
Este es el camino más rápido desde un agente sin protección hasta una postura zero-trust. Aplicas un interruptor, sigues llamando al gateway exactamente como antes, observas lo que tu agente realmente hace y luego endureces. Sin reglas que crear, sin cambios de SDK.
Aplicar una postura de seguridad cambia una configuración del espacio de trabajo, así que los pasos 2 y 5 necesitan el rol Developer. El feed de Matches del guardrail (paso 4) está abierto a cualquier miembro; el feed de Events del firewall también necesita Developer.

Actívalo en 5 pasos

1

Obtén una clave API

Si aún no tienes una, crea una clave — ver Obtener una clave API. Dale esta clave al agente que quieres asegurar. Todo lo que sigue se vincula a tu espacio de trabajo, así que la misma postura cubre cada clave en él.
2

Aplica la línea base de Agentes Seguros

En la consola, abre Firewall → Posture y aplica el nivel de autonomía balanced (rol Developer).En una transacción esto establece tanto tu postura de Firewall como de Guardrails: las llamadas a herramienta se auditan y se marca PII, mientras las acciones más destructivas (como el shell destructivo) se deniegan — así observas antes de aplicar ampliamente. Es un solo interruptor con deshacer de un clic. (Para una pasada que no bloquee nada en absoluto, empieza en permissive.)
3

Envía una solicitud exactamente como antes

Nada de tu llamada cambia. Usa la misma clave, la misma forma de OpenAI:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
La solicitud pasa. Bajo balanced no se bloquea — se observa. El email se marca y cualquier llamada a herramienta que haga tu agente se registra.
4

Ve lo que tu agente realmente hizo

Dos feeds, ambos con alcance de espacio de trabajo:
  • Firewall → Events / Runs — cada llamada a herramienta que hizo tu agente, su veredicto y qué superficie alcanzó (la herramienta que anunció, la llamada que emitió el modelo, un despacho MCP o un destino saliente).
  • Guardrails → Matches — cada regla que se disparó, como el email marcado, agrupadas por guardrail y acción.
Esta es la recompensa de observar primero: ves el comportamiento real de tu agente antes de que alguna regla pueda romperlo.
5

Endurece para aplicar

Una vez que los feeds se ven correctos, cambia el nivel de autonomía a tight en la misma página de Firewall → Posture (rol Developer).Ahora la aplicación está en vivo: PII se enmascara antes de que el modelo lo vea, los secretos se bloquean de tus solicitudes y las llamadas de shell destructivo y el egress SSRF se deniegan. Una llamada a herramienta denegada regresa como HTTP 400 firewall_blocked; un prompt bloqueado regresa como HTTP 400 guardrail_blocked — y un bloqueo no te cuesta cuota. Sin cambios en la aplicación — la siguiente solicitud ya está gobernada.
Eso es zero trust activado: cada prompt y respuesta examinados, cada llamada a herramienta y solicitud saliente enrutada gobernados, cada decisión registrada.

Qué acabas de activar

CapaBajo balancedBajo tight
Guardrails (texto)PII marcada (solo-auditoría)PII enmascarada, secretos bloqueados
Firewall (acciones)Auditado; shell destructivo denegadoDefecto-deny; shell destructivo + egress SSRF denegados
VisibilidadCompleta — Events + MatchesCompleta — Events + Matches

¿Quedó demasiado estricto?

Cada cambio de autonomía es una transacción con deshacer de un clic, así que puedes volver directamente a tu postura anterior desde la página del Firewall (o la API de deshacer). También puedes simplemente volver a aplicar un nivel más suave (balanced o permissive) en cualquier momento.

Próximos pasos

La línea base de Agentes Seguros

Qué establece cada nivel de autonomía y cómo simular antes de aplicar.

Modos de aplicación

Observe → shadow → enforce, el despliegue seguro en detalle.

Guardrails

Crea tus propias reglas de contenido más allá de la línea base.

Agent Firewall

Crea listas de permitidos de herramientas, verificaciones de argumentos y reglas de egress.