https://api.orcarouter.ai/v1 exactamente como antes.
1. La amenaza: los agentes actúan, no solo chatean
La seguridad a nivel de prompt fue construida para el chat. Asume que el modelo produce texto y un humano lo lee. Los agentes rompen esa suposición:- Ingieren contenido no confiable — una página web, un documento recuperado, un resultado de herramienta — que puede llevar instrucciones (inyección de prompts).
- Llaman a herramientas —
shell.exec,db.query, una API de pagos — que hacen cosas irreversibles. - Alcanzan la red — obteniendo URLs que un atacante puede dirigir hacia servicios internos o endpoints de exfiltración.
- Se auto-extienden — instalando skills, plugins y servidores MCP que nunca revisaste.
2. La pila de controles
OrcaRouter aplica cuatro capas a cada solicitud. Cada una es independiente, con alcance de espacio de trabajo, y se adjunta a una clave API sin cambios de código.Claves con alcance
Identidad de mínima agencia. Vinculada a modelos específicos, IPs, un
tope de gasto, una expiración y la política exacta de guardrail +
firewall que aplica.
Guardrails
Control de contenido. Examina prompts y respuestas — bloquea, enmascara
o marca PII, secretos, inyección y salida insegura.
Agent Firewall
Control de acciones. Lista de permitidos para herramientas, valida y
sanea argumentos de llamadas a herramienta, retiene para aprobación y
limita egress y coste.
Auditoría
Atribución. Cada coincidencia, veredicto y aprobación se registra y
se correlaciona con la ejecución del agente que la causó.
3. Por qué “zero trust”
Zero trust significa que ninguna solicitud es confiable por su origen. Una llamada a herramienta se juzga por lo que es, no por el hecho de que tu propio agente la emitió — porque el agente puede estar actuando según instrucciones inyectadas que leyó de una página no confiable. OrcaRouter aplica esto por defecto-deny en las acciones que importan y listas de permitidos explícitas para las que deseas. Por qué los agentes de IA necesitan zero trust cubre el modelo en profundidad.4. Todo vive en el gateway
La pila de controles se configura en tu espacio de trabajo y se aplica en el gateway, no en tu aplicación:- Adjunta una vez, aplica en todas partes. Vincula un guardrail y una política de firewall a una clave API; cada llamada que hace esa clave es examinada. Edita la política y cada clave adjunta cambia en la siguiente solicitud.
- Sin redespliegue, sin cambio de SDK. Tu agente sigue emitiendo las mismas llamadas con forma de OpenAI. La aplicación es invisible hasta que una regla se dispara.
- Agnóstico del proveedor. La misma política viaja sobre GPT, Claude, Gemini y el resto — examina texto y acciones, no la elección de modelo.
La configuración está restringida por rol dentro de tu espacio de
trabajo. Leer políticas y configuraciones está abierto a cualquier
miembro; los feeds de Events y Runs del firewall requieren el rol
Developer; crear o cambiar guardrails, políticas de firewall y claves
requiere Developer; los cambios de cumplimiento y de clave de gateway
requieren Admin. A lo largo de estos documentos, cada paso de
configuración indica el rol que necesita.
5. El camino rápido: un solo interruptor
No tienes que crear reglas para obtener protección. Un nivel de autonomía establece toda tu postura de Firewall y Guardrails en un solo paso, con deshacer de un clic:| Nivel | Qué obtienes |
|---|---|
tight | Defecto-deny; bloquea herramientas destructivas y egress SSRF; guardrails de PII + secretos activados. |
balanced | Auditar por defecto, denegar shell destructivo, marcar PII. La postura de inicio recomendada. |
permissive | Nada aplicado, pero todo observado para que aún veas el comportamiento de tu agente. |
6. Dónde ir a continuación
Inicio rápido
Activa zero trust en 5 minutos.
Por qué zero trust
El modelo de amenazas detrás del diseño.
Guardrails vs. Firewall
Qué capa captura qué amenaza.
De qué eres responsable
Qué asegura el gateway y qué sigue siendo tuyo.
