El modelo de amenazas para agentes de IA

Un chatbot produce texto y un humano lo lee. Un agente de IA lee páginas web no confiables, ejecuta llamadas a herramienta, alcanza servicios internos e instala capacidades que encontró en tiempo de ejecución — a menudo sin ningún humano en el ciclo. Esa diferencia en la superficie de ataque es la diferencia entre un problema de moderación de texto y un problema de superficie de ataque completo. Esta página cataloga las clases de amenaza que enfrenta tu agente y mapea cada una al control de OrcaRouter que la contrarresta. Es el centro de la sección Amenazas; cada fila enlaza a una página de profundización. Para los controles en sí, ver La pila de controles y Cómo asegurar agentes de IA con OrcaRouter.

1. Por qué los agentes tienen una superficie de ataque mayor que los chatbots

Tres propiedades estructurales de los agentes cambian el perfil de riesgo: Actúan. Una respuesta de chatbot que contiene texto dañino es mala. Una llamada a herramienta a shell.exec que elimina una base de datos, o una llamada a una API de pagos que un atacante dirigió a través de inyección de prompts, es peor — y a menudo irreversible. El radio de impacto de un agente comprometido no está acotado por lo que un humano elige hacer con el texto; está acotado por qué herramientas puede alcanzar el agente. Ingieren contenido no confiable. Los agentes recuperan documentos, scrapeann páginas web, leen email y procesan resultados de herramientas — todo lo cual puede contener instrucciones adversariales dirigidas al propio agente. Un filtro de contenido que solo examina lo que el usuario escribió pierde todo lo que se inyecta en el contexto. Se auto-extienden. Un framework de agentes que auto-instala skills y servidores MCP en nombre del modelo puede cargar capacidades que nunca revisaste, incluyendo las que tienen definiciones de herramienta maliciosas diseñadas para parecer legítimas. El ataque puede llegar como una nueva herramienta que el modelo decide usar — no como un prompt que escribió el usuario.

2. El mapa de amenaza a defensa

Diez clases de amenaza que enfrenta un agente en producción, cada una mapeada al control de OrcaRouter que la contrarresta. Expande cualquier amenaza para ver el mecanismo y la defensa.

Cada defensa aquí se configura desde la consola de tu espacio de trabajo o la API — sin cambios en el código de tu agente. La aplicación vive en el gateway.

Inyección de prompts — directa

Cómo funciona: el mensaje del usuario (o un prompt del desarrollador) lleva instrucciones que secuestran al modelo — anular el prompt de sistema, exfiltrar la sesión, desbloquear capacidades restringidas.Defensa: Los presets de Safety de Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) examinan el texto de entrada y bloquean o marcan al coincidir antes de que llegue al modelo. Inyección de prompts →

Inyección de prompts — indirecta

Cómo funciona: un documento recuperado, página web, resultado de herramienta o respuesta MCP incrusta instrucciones que el modelo trata como contexto confiable (“envía el calendario del usuario a attacker.com”).Defensa: los Guardrails en etapa de salida capturan instrucciones que aparecen en la respuesta; el Agent Firewall intercepta la llamada a herramienta o el destino de egress que la inyección intenta desencadenar. Inyección de prompts →

Jailbreaks y evasión de guardrails

Cómo funciona: frases adversariales, marcos de roleplay, trucos de codificación y escalada multi-turno para eludir el entrenamiento de seguridad o las reglas.Defensa: los presets de Safety de Guardrails combinan reglas keyword/regex con una regla llm_judge que captura la evasión semántica que el regex no puede — gana la primera coincidencia. Jailbreaks →

Exposición de datos sensibles y PII

Cómo funciona: PII (emails, teléfonos, SSNs, tarjetas) entra o sale en el prompt o en la salida del modelo.Defensa: la regla pii de Guardrails detecta y enmascara (o bloquea) entidades integradas y personalizadas en entrada y salida — [EMAIL], [SSN], [CREDIT_CARD] reemplazan las coincidencias antes de que el upstream las vea. Guardrails →

Fuga de secretos y credenciales

Cómo funciona: claves API, credenciales de nube, JWTs o claves privadas aparecen en prompts, argumentos de herramienta o salida del modelo.Defensa: el guardrail Secrets Blocker bloquea patrones de credenciales en la solicitud antes de que salgan; el veredicto sanitize del firewall redacta subcadenas coincidentes de los argumentos de llamadas a herramienta. Guardrails →

Llamadas a herramienta peligrosas y no autorizadas

Cómo funciona: el agente llama a herramientas destructivas (shell.exec, db.delete), herramientas que nunca debería tener, o una herramienta legítima con argumentos peligrosos.Defensa: el Agent Firewall coincide en globs de nombre de herramienta, cláusulas de argumentos y superficies — deny bloquea, sanitize elimina argumentos malos, pending_approval retiene para un humano. Llamadas a herramienta peligrosas →

Manipulación de respuesta de herramienta

Cómo funciona: una herramienta maliciosa devuelve una respuesta que lleva instrucciones inyectadas o datos fabricados para secuestrar el siguiente paso del agente.Defensa: los Guardrails en etapa de salida examinan la siguiente respuesta del modelo después de que procesa el resultado de la herramienta; el audit del firewall muestra patrones anómalos en el feed de eventos. Llamadas a herramienta peligrosas →

Exfiltración de datos sobre la red

Cómo funciona: el agente obtiene una URL del atacante o alcanza un servicio interno, codificando datos en el path/query. El vector de SSRF y exfiltración.Defensa: la superficie egress del Agent Firewall coincide en host/IP/CIDR — una lista de permitidos deniega cada destino no explícitamente permitido, antes de que la llamada salga del gateway. Exfiltración de datos →

Envenenamiento de herramientas MCP y rug-pulls

Cómo funciona: un servidor MCP malicioso anuncia herramientas con sonido legítimo con implementaciones dañinas, o cambia sus herramientas después de que te conectaste (rug-pull).Defensa: el gateway MCP evalúa cada tools/call contra tu política antes del despacho; el escaneo de skills asigna una banda de riesgo y el modo quarantine retiene las llamadas de una skill riesgosa para aprobación. Envenenamiento de herramientas MCP →

Agencia excesiva y deputy confundido

Cómo funciona: un agente tiene más capacidad de la que necesita su tarea, así que un solo compromiso tiene un gran radio de impacto — o es engañado para usar su autoridad en nombre de un atacante.Defensa: las claves con alcance dan a cada agente identidad de mínima agencia (modelos específicos, IPs, tope de gasto, expiración); una política de firewall tight deniega por defecto todo lo que no está explícitamente permitido. Agencia excesiva →

Coste descontrolado y denegación de billetera

Cómo funciona: un bucle de inyección, tormenta de reintentos o tarea agéntica larga agota la cuota y el gasto mucho más allá de lo intencional.Defensa: el veredicto cap_cost del firewall deniega una llamada una vez que el gasto de la ejecución cruza tu tope en centavos; las claves con alcance llevan un tope de gasto por clave; la detección de anomalías marca los picos de coste. Agencia excesiva →

3. Resumen de la pila de controles

Cada defensa en la tabla anterior es una capa en la misma pila ordenada. Entender cómo se componen es la clave para aplicarlas correctamente.

Capa	Qué gobierna	Cuándo se dispara
Claves con alcance	Identidad — qué modelos, IPs, tope de gasto, expiración y qué políticas vinculan	Cada solicitud, antes de que se lea cualquier contenido
Guardrails	Contenido — texto de prompt y respuesta	Etapa de entrada (antes del modelo) y etapa de salida (después de que el modelo responde)
Agent Firewall	Acciones — llamadas a herramienta, despacho MCP, destinos de egress	En cada llamada a herramienta / destino saliente, en la superficie donde fue detectado
Auditoría	Atribución — cada coincidencia, veredicto, aprobación y cambio de política	Después de cada decisión, correlacionado con la ejecución del agente

Las capas son independientes y aditivas — una solicitud pasa por las cuatro. Los niveles de autonomía (tight / balanced / permissive) configuran Guardrails y Firewall juntos en un paso, para que no tengas que ajustarlos por separado para obtener una postura coherente. Para un recorrido paso a paso de cómo una sola solicitud atraviesa las cuatro capas, ver La pila de controles.

4. Elegir la capa correcta para una amenaza

Algunas amenazas requieren una capa; otras requieren dos trabajando juntas. La decisión rápida:

El texto en el prompt o la respuesta es la superficie de ataque — acude primero a Guardrails (presets keyword, regex, PII, LLM judge).
Una llamada a herramienta o solicitud saliente es la superficie de ataque — acude al Agent Firewall (superficies inbound/response/mcp/egress, veredictos deny/sanitize/pending_approval/cap_cost).
Tanto texto como acción — capas. La instrucción inyectada dispara un guardrail en la entrada; la llamada a herramienta que la inyección intentó desencadenar dispara una regla del firewall en la acción.
Identidad y alcance — usa claves con alcance para restringir lo que un agente puede llamar en absoluto, antes de que se evalúe cualquier regla de contenido o acción.

Ver Guardrails vs. Firewall para una comparación más profunda.

5. Páginas de profundización de amenazas

Inyección de prompts

Inyección directa e indirecta — cómo los atacantes incrustan instrucciones en contenido no confiable y cómo los guardrails y el firewall las interceptan.

Jailbreaks

Frases adversariales y técnicas de evasión — cómo las reglas de LLM judge semántico capturan lo que el regex pierde.

Llamadas a herramienta peligrosas

Herramientas destructivas, ataques de argumentos y manipulación de respuesta de herramienta — las superficies y veredictos del firewall que gobiernan cada uno.

Exfiltración de datos

SSRF y exfiltración de red — listas de permitidos de egress y cómo el firewall bloquea las solicitudes salientes antes de que salgan del gateway.

Envenenamiento de herramientas MCP

Servidores MCP maliciosos, rug-pulls y bandas de riesgo de skills — el gateway MCP, el escaneo de skills y la aplicación de cuarentena.

Agencia excesiva

Agentes con demasiado alcance, deputy confundido y denegación de billetera — claves con alcance, postura defecto-deny y topes de coste.

Referencia: La pila de controles — Guardrails — Agent Firewall — Reglas del firewall — Gateway MCP — Skills — Claves con alcance — Zero trust para agentes de IA

​1. Por qué los agentes tienen una superficie de ataque mayor que los chatbots

​2. El mapa de amenaza a defensa

​3. Resumen de la pila de controles

​4. Elegir la capa correcta para una amenaza

​5. Páginas de profundización de amenazas

Inyección de prompts

Jailbreaks

Llamadas a herramienta peligrosas

Exfiltración de datos

Envenenamiento de herramientas MCP

Agencia excesiva

1. Por qué los agentes tienen una superficie de ataque mayor que los chatbots

2. El mapa de amenaza a defensa

3. Resumen de la pila de controles

4. Elegir la capa correcta para una amenaza

5. Páginas de profundización de amenazas