Cómo asegurar agentes de IA con OrcaRouter

Un agente de IA no es un chatbot. Lee páginas web no confiables, llama a herramientas, gasta dinero, alcanza hosts internos y carga capacidades que encontró en tiempo de ejecución. Cada una de esas es una acción con consecuencias en el mundo real, y la mayoría ocurre sin un humano en el ciclo. OrcaRouter se sitúa en el camino entre tu agente y cada modelo que llama, así que es el único lugar que ve cada solicitud y respuesta — y cada llamada a herramienta y destino saliente que tu agente enruta a través de él — independientemente de qué proveedor la atendió. Ese punto de estrangulamiento es donde pertenece la aplicación zero-trust. Lo configuras una vez en tu espacio de trabajo; tu agente sigue llamando a https://api.orcarouter.ai/v1 exactamente como antes.

1. La amenaza: los agentes actúan, no solo chatean

La seguridad a nivel de prompt fue construida para el chat. Asume que el modelo produce texto y un humano lo lee. Los agentes rompen esa suposición:

Ingieren contenido no confiable — una página web, un documento recuperado, un resultado de herramienta — que puede llevar instrucciones (inyección de prompts).
Llaman a herramientas — shell.exec, db.query, una API de pagos — que hacen cosas irreversibles.
Alcanzan la red — obteniendo URLs que un atacante puede dirigir hacia servicios internos o endpoints de exfiltración.
Se auto-extienden — instalando skills, plugins y servidores MCP que nunca revisaste.

Nada de eso es visible para un filtro de contenido que solo lee el prompt. Asegurar un agente significa controlar identidad, contenido, acciones y la red, y mantener un rastro de auditoría de todo ello.

2. La pila de controles

OrcaRouter aplica cuatro capas a cada solicitud. Cada una es independiente, con alcance de espacio de trabajo, y se adjunta a una clave API sin cambios de código.

Claves con alcance

Identidad de mínima agencia. Vinculada a modelos específicos, IPs, un tope de gasto, una expiración y la política exacta de guardrail + firewall que aplica.

Guardrails

Control de contenido. Examina prompts y respuestas — bloquea, enmascara o marca PII, secretos, inyección y salida insegura.

Agent Firewall

Control de acciones. Lista de permitidos para herramientas, valida y sanea argumentos de llamadas a herramienta, retiene para aprobación y limita egress y coste.

Auditoría

Atribución. Cada coincidencia, veredicto y aprobación se registra y se correlaciona con la ejecución del agente que la causó.

Una solicitud fluye a través de ellas en orden: la clave decide si la llamada está siquiera permitida y qué políticas vinculan; los guardrails examinan el texto de entrada; el modelo se ejecuta; el firewall juzga cualquier llamada a herramienta y destino saliente; los guardrails examinan la salida; y cada decisión aterriza en el rastro de auditoría. Ver La pila de controles para el camino completo.

3. Por qué “zero trust”

Zero trust significa que ninguna solicitud es confiable por su origen. Una llamada a herramienta se juzga por lo que es, no por el hecho de que tu propio agente la emitió — porque el agente puede estar actuando según instrucciones inyectadas que leyó de una página no confiable. OrcaRouter aplica esto por defecto-deny en las acciones que importan y listas de permitidos explícitas para las que deseas. Por qué los agentes de IA necesitan zero trust cubre el modelo en profundidad.

4. Todo vive en el gateway

La pila de controles se configura en tu espacio de trabajo y se aplica en el gateway, no en tu aplicación:

Adjunta una vez, aplica en todas partes. Vincula un guardrail y una política de firewall a una clave API; cada llamada que hace esa clave es examinada. Edita la política y cada clave adjunta cambia en la siguiente solicitud.
Sin redespliegue, sin cambio de SDK. Tu agente sigue emitiendo las mismas llamadas con forma de OpenAI. La aplicación es invisible hasta que una regla se dispara.
Agnóstico del proveedor. La misma política viaja sobre GPT, Claude, Gemini y el resto — examina texto y acciones, no la elección de modelo.

La configuración está restringida por rol dentro de tu espacio de trabajo. Leer políticas y configuraciones está abierto a cualquier miembro; los feeds de Events y Runs del firewall requieren el rol Developer; crear o cambiar guardrails, políticas de firewall y claves requiere Developer; los cambios de cumplimiento y de clave de gateway requieren Admin. A lo largo de estos documentos, cada paso de configuración indica el rol que necesita.

5. El camino rápido: un solo interruptor

No tienes que crear reglas para obtener protección. Un nivel de autonomía establece toda tu postura de Firewall y Guardrails en un solo paso, con deshacer de un clic:

Nivel	Qué obtienes
`tight`	Defecto-deny; bloquea herramientas destructivas y egress SSRF; guardrails de PII + secretos activados.
`balanced`	Auditar por defecto, denegar shell destructivo, marcar PII. La postura de inicio recomendada.
`permissive`	Nada aplicado, pero todo observado para que aún veas el comportamiento de tu agente.

Esta es la Línea base de Agentes Seguros — empieza ahí, observa lo que tus agentes realmente hacen, luego endurece.

6. Dónde ir a continuación

Inicio rápido

Activa zero trust en 5 minutos.

Por qué zero trust

El modelo de amenazas detrás del diseño.

Guardrails vs. Firewall

Qué capa captura qué amenaza.

De qué eres responsable

Qué asegura el gateway y qué sigue siendo tuyo.

Por qué zero trust

​1. La amenaza: los agentes actúan, no solo chatean

​2. La pila de controles

Claves con alcance

Guardrails

Agent Firewall

Auditoría

​3. Por qué “zero trust”

​4. Todo vive en el gateway

​5. El camino rápido: un solo interruptor

​6. Dónde ir a continuación

Inicio rápido

Por qué zero trust

Guardrails vs. Firewall

De qué eres responsable

1. La amenaza: los agentes actúan, no solo chatean

2. La pila de controles

3. Por qué “zero trust”

4. Todo vive en el gateway

5. El camino rápido: un solo interruptor

6. Dónde ir a continuación