Inicio rápido: activa zero trust en 5 minutos

Este es el camino más rápido desde un agente sin protección hasta una postura zero-trust. Aplicas un interruptor, sigues llamando al gateway exactamente como antes, observas lo que tu agente realmente hace y luego endureces. Sin reglas que crear, sin cambios de SDK.

Aplicar una postura de seguridad cambia una configuración del espacio de trabajo, así que los pasos 2 y 5 necesitan el rol Developer. El feed de Matches del guardrail (paso 4) está abierto a cualquier miembro; el feed de Events del firewall también necesita Developer.

Actívalo en 5 pasos

Obtén una clave API

Si aún no tienes una, crea una clave — ver Obtener una clave API. Dale esta clave al agente que quieres asegurar. Todo lo que sigue se vincula a tu espacio de trabajo, así que la misma postura cubre cada clave en él.

Aplica la línea base de Agentes Seguros

En la consola, abre Firewall → Posture y aplica el nivel de autonomía balanced (rol Developer).En una transacción esto establece tanto tu postura de Firewall como de Guardrails: las llamadas a herramienta se auditan y se marca PII, mientras las acciones más destructivas (como el shell destructivo) se deniegan — así observas antes de aplicar ampliamente. Es un solo interruptor con deshacer de un clic. (Para una pasada que no bloquee nada en absoluto, empieza en permissive.)

Envía una solicitud exactamente como antes

Nada de tu llamada cambia. Usa la misma clave, la misma forma de OpenAI:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'

La solicitud pasa. Bajo balanced no se bloquea — se observa. El email se marca y cualquier llamada a herramienta que haga tu agente se registra.

Ve lo que tu agente realmente hizo

Dos feeds, ambos con alcance de espacio de trabajo:

Firewall → Events / Runs — cada llamada a herramienta que hizo tu agente, su veredicto y qué superficie alcanzó (la herramienta que anunció, la llamada que emitió el modelo, un despacho MCP o un destino saliente).
Guardrails → Matches — cada regla que se disparó, como el email marcado, agrupadas por guardrail y acción.

Esta es la recompensa de observar primero: ves el comportamiento real de tu agente antes de que alguna regla pueda romperlo.

Endurece para aplicar

Una vez que los feeds se ven correctos, cambia el nivel de autonomía a tight en la misma página de Firewall → Posture (rol Developer).Ahora la aplicación está en vivo: PII se enmascara antes de que el modelo lo vea, los secretos se bloquean de tus solicitudes y las llamadas de shell destructivo y el egress SSRF se deniegan. Una llamada a herramienta denegada regresa como HTTP 400 firewall_blocked; un prompt bloqueado regresa como HTTP 400 guardrail_blocked — y un bloqueo no te cuesta cuota. Sin cambios en la aplicación — la siguiente solicitud ya está gobernada.

Eso es zero trust activado: cada prompt y respuesta examinados, cada llamada a herramienta y solicitud saliente enrutada gobernados, cada decisión registrada.

Qué acabas de activar

Capa	Bajo `balanced`	Bajo `tight`
Guardrails (texto)	PII marcada (solo-auditoría)	PII enmascarada, secretos bloqueados
Firewall (acciones)	Auditado; shell destructivo denegado	Defecto-deny; shell destructivo + egress SSRF denegados
Visibilidad	Completa — Events + Matches	Completa — Events + Matches

¿Quedó demasiado estricto?

Cada cambio de autonomía es una transacción con deshacer de un clic, así que puedes volver directamente a tu postura anterior desde la página del Firewall (o la API de deshacer). También puedes simplemente volver a aplicar un nivel más suave (balanced o permissive) en cualquier momento.

Próximos pasos

La línea base de Agentes Seguros

Qué establece cada nivel de autonomía y cómo simular antes de aplicar.

Modos de aplicación

Observe → shadow → enforce, el despliegue seguro en detalle.

Guardrails

Crea tus propias reglas de contenido más allá de la línea base.

Agent Firewall

Crea listas de permitidos de herramientas, verificaciones de argumentos y reglas de egress.

Línea base de Agentes Seguros Responsabilidad compartida

​Actívalo en 5 pasos

​Qué acabas de activar

​¿Quedó demasiado estricto?

​Próximos pasos

La línea base de Agentes Seguros

Modos de aplicación

Guardrails

Agent Firewall

Actívalo en 5 pasos

Qué acabas de activar

¿Quedó demasiado estricto?

Próximos pasos