1. Por qué los agentes tienen una superficie de ataque mayor que los chatbots
Tres propiedades estructurales de los agentes cambian el perfil de riesgo: Actúan. Una respuesta de chatbot que contiene texto dañino es mala. Una llamada a herramienta ashell.exec que elimina una base de datos, o una
llamada a una API de pagos que un atacante dirigió a través de inyección de
prompts, es peor — y a menudo irreversible. El radio de impacto de un agente
comprometido no está acotado por lo que un humano elige hacer con el texto;
está acotado por qué herramientas puede alcanzar el agente.
Ingieren contenido no confiable. Los agentes recuperan documentos, scrapeann
páginas web, leen email y procesan resultados de herramientas — todo lo cual
puede contener instrucciones adversariales dirigidas al propio agente. Un
filtro de contenido que solo examina lo que el usuario escribió pierde todo lo
que se inyecta en el contexto.
Se auto-extienden. Un framework de agentes que auto-instala skills y
servidores MCP en nombre del modelo puede cargar capacidades que nunca revisaste,
incluyendo las que tienen definiciones de herramienta maliciosas diseñadas para
parecer legítimas. El ataque puede llegar como una nueva herramienta que el
modelo decide usar — no como un prompt que escribió el usuario.
2. El mapa de amenaza a defensa
Diez clases de amenaza que enfrenta un agente en producción, cada una mapeada al control de OrcaRouter que la contrarresta. Expande cualquier amenaza para ver el mecanismo y la defensa.Inyección de prompts — directa
Inyección de prompts — directa
Inyección de prompts — indirecta
Inyección de prompts — indirecta
Jailbreaks y evasión de guardrails
Jailbreaks y evasión de guardrails
llm_judge que captura la evasión semántica
que el regex no puede — gana la primera coincidencia.
Jailbreaks →Exposición de datos sensibles y PII
Exposición de datos sensibles y PII
pii de Guardrails detecta y enmascara (o
bloquea) entidades integradas y personalizadas en entrada y salida —
[EMAIL], [SSN], [CREDIT_CARD] reemplazan las coincidencias antes
de que el upstream las vea.
Guardrails →Fuga de secretos y credenciales
Fuga de secretos y credenciales
sanitize
del firewall redacta subcadenas coincidentes de los argumentos de llamadas
a herramienta.
Guardrails →Llamadas a herramienta peligrosas y no autorizadas
Llamadas a herramienta peligrosas y no autorizadas
shell.exec, db.delete), herramientas que nunca debería tener, o una
herramienta legítima con argumentos peligrosos.Defensa: el Agent Firewall coincide en globs de nombre de
herramienta, cláusulas de argumentos y superficies — deny bloquea,
sanitize elimina argumentos malos, pending_approval retiene para un
humano.
Llamadas a herramienta peligrosas →Manipulación de respuesta de herramienta
Manipulación de respuesta de herramienta
audit del firewall muestra patrones anómalos en el feed de eventos.
Llamadas a herramienta peligrosas →Exfiltración de datos sobre la red
Exfiltración de datos sobre la red
egress del Agent Firewall coincide en
host/IP/CIDR — una lista de permitidos deniega cada destino no
explícitamente permitido, antes de que la llamada salga del gateway.
Exfiltración de datos →Envenenamiento de herramientas MCP y rug-pulls
Envenenamiento de herramientas MCP y rug-pulls
tools/call contra tu
política antes del despacho; el escaneo de skills asigna una banda de
riesgo y el modo quarantine retiene las llamadas de una skill riesgosa
para aprobación.
Envenenamiento de herramientas MCP →Agencia excesiva y deputy confundido
Agencia excesiva y deputy confundido
tight deniega por defecto todo lo que no está
explícitamente permitido.
Agencia excesiva →Coste descontrolado y denegación de billetera
Coste descontrolado y denegación de billetera
cap_cost del firewall deniega una llamada una
vez que el gasto de la ejecución cruza tu tope en centavos; las claves con
alcance llevan un tope de gasto por clave; la detección de anomalías marca
los picos de coste.
Agencia excesiva →3. Resumen de la pila de controles
Cada defensa en la tabla anterior es una capa en la misma pila ordenada. Entender cómo se componen es la clave para aplicarlas correctamente.| Capa | Qué gobierna | Cuándo se dispara |
|---|---|---|
| Claves con alcance | Identidad — qué modelos, IPs, tope de gasto, expiración y qué políticas vinculan | Cada solicitud, antes de que se lea cualquier contenido |
| Guardrails | Contenido — texto de prompt y respuesta | Etapa de entrada (antes del modelo) y etapa de salida (después de que el modelo responde) |
| Agent Firewall | Acciones — llamadas a herramienta, despacho MCP, destinos de egress | En cada llamada a herramienta / destino saliente, en la superficie donde fue detectado |
| Auditoría | Atribución — cada coincidencia, veredicto, aprobación y cambio de política | Después de cada decisión, correlacionado con la ejecución del agente |
tight / balanced / permissive) configuran
Guardrails y Firewall juntos en un paso, para que no tengas que ajustarlos
por separado para obtener una postura coherente.
Para un recorrido paso a paso de cómo una sola solicitud atraviesa las cuatro
capas, ver La pila de controles.
4. Elegir la capa correcta para una amenaza
Algunas amenazas requieren una capa; otras requieren dos trabajando juntas. La decisión rápida:- El texto en el prompt o la respuesta es la superficie de ataque — acude primero a Guardrails (presets keyword, regex, PII, LLM judge).
- Una llamada a herramienta o solicitud saliente es la superficie de ataque — acude al Agent Firewall (superficies inbound/response/mcp/egress, veredictos deny/sanitize/pending_approval/cap_cost).
- Tanto texto como acción — capas. La instrucción inyectada dispara un guardrail en la entrada; la llamada a herramienta que la inyección intentó desencadenar dispara una regla del firewall en la acción.
- Identidad y alcance — usa claves con alcance para restringir lo que un agente puede llamar en absoluto, antes de que se evalúe cualquier regla de contenido o acción.
5. Páginas de profundización de amenazas
Inyección de prompts
Jailbreaks
Llamadas a herramienta peligrosas
Exfiltración de datos
Envenenamiento de herramientas MCP
Agencia excesiva
Referencia: La pila de controles — Guardrails — Agent Firewall — Reglas del firewall — Gateway MCP — Skills — Claves con alcance — Zero trust para agentes de IA
