seguridad de la cadena de suministro de IA; las referencias de
Firewall y
Skills llevan la mecánica completa.
1. Seguridad de la cadena de suministro de IA para agentes, en el gateway
El punto de estrangulamiento es la ruta de relay. Ya sea que una capacidad fuera registrada a mano, auto-instalada por el agente, o extraída de un registro de la comunidad, su primera llamada a herramienta cruzaapi.orcarouter.ai — y ahí es donde el Firewall la evalúa. Cuatro controles se
componen en una única postura:
Gateway MCP, eval por llamada
Cada
tools/call se evalúa contra tu política antes del despacho — el
manifiesto nunca es la fuente de verdad.Bandas de riesgo y cuarentena de skills
Las capacidades instaladas se escanean, puntúan y retienen para revisión
hasta que un humano las aprueba.
Credenciales MCP cifradas
Los secretos de auth de servidor se cifran en reposo y se inyectan en el
despacho — nunca expuestos al modelo, al agente o a los argumentos de
llamada.
Listas de permitidos de egress
Fija dónde pueden enviar datos las llamadas a herramienta, para que una
dependencia comprometida no pueda exfiltrar a un host que nunca aprobaste.
La detección es en el gateway, en el primer uso — no en tu gestor de paquetes
o sistema de archivos. Eso es deliberado: es la única ruta que ve cada agente
y cada llamada a herramienta sin importar cómo llegó ahí la capacidad.
2. La amenaza: una dependencia que crece después de que confías en ella
| Vector | Qué ocurre |
|---|---|
| Rug-pull | Un servidor MCP registrado añade una herramienta (shell.exec, un nuevo fetch) que nunca aprobaste. |
| Skill creep | Una skill instalada usa herramientas o hosts que su manifiesto nunca declaró. |
| Robo de credenciales | La implementación de herramienta de un servidor comprometido lee su propio secreto de auth para llamar a casa. |
| Exfiltración de egress | Una cadena recuperar→enviar envía tus datos a un host controlado por el atacante. |
3. Un ejemplo concreto — registrar y fijar un servidor MCP
Registras un servidor MCP de terceros desde la consola (Settings → Firewall → MCP servers; las escrituras necesitan Developer+). El secreto de auth del servidor se almacena cifrado — lo proporcionas una vez, el gateway lo inyecta en el despacho, y se enmascara en cada lectura después de eso. Un registro de servidor MCP lleva:| Campo | Valores |
|---|---|
auth_mode | none, bearer, oauth, basic |
status | ok, degraded, down (establecido por la sonda de salud) |
credentials | cifradas en reposo, nunca devueltas en texto plano |
/api/workspace/firewall/*) que necesita Developer+, no una clave de
relay — registrar, sondear y autorar reglas ocurren todos en el plano de
gestión:
tool_name_glob: <server>.* a pending_approval hasta que hayas visto un
historial de llamadas limpio — cada llamada de ese servidor se retiene para un
humano antes de ejecutarse. Una vez que confías en él, relaja la regla a
audit o allow. A partir de ese punto el gateway MCP evalúa cada
tools/call en la superficie mcp antes del despacho — así que si un
rug-pull posterior añade una herramienta no declarada, tu política, no el
manifiesto del servidor, decide si se ejecuta.
4. Bandas de riesgo y cuarentena de skills
Cada capacidad instalable — ya sea que la registraste o el gateway la auto-detectó en tiempo de ejecución — se pasa por el escáner de skills. Los hallazgos se resumen en una banda de riesgo y un modo de aplicación:Bandas de riesgo
Bandas de riesgo
low · medium · high · critical. La banda se deriva de pasadas
deterministas del escáner sobre el manifiesto y los alcances declarados
(uso de herramienta no declarado, egress de red fuera de los alcances
aprobados, escrituras inseguras al sistema de archivos, texto de manifiesto
con forma de inyección).Modos de aplicación
Modos de aplicación
allow (deciden las reglas de tu política), quarantine (cualquier
veredicto no-deny escala a pending_approval — un humano aprueba cada
llamada), block (fuerza deny en todas las herramientas de esta skill
sin importar las reglas). Una skill de banda high se pone en cuarentena
automáticamente; critical se bloquea.Por qué auto-detectada = siempre en cuarentena
Por qué auto-detectada = siempre en cuarentena
Una capacidad que un agente auto-instala, o una herramienta que un rug-pull
añade, se retiene en
pending_approval sin importar su puntuación de
escaneo hasta que un humano la revisa. Un operador no puede añadir
silenciosamente una herramienta y hacer que tus agentes empiecen a usarla.5. Listas de permitidos de egress — contén el “llamar a casa”
El resultado más dañino de la cadena de suministro es una dependencia comprometida que exfiltra. La superficieegress del Firewall evalúa el
destino saliente (host / IP / CIDR) que una herramienta reporta, así que puedes
fijar dónde se permite que vayan los datos.
Autoras una regla de egress tú mismo: una lista de permitidos de host/CIDR
con un predicado cidr_match deniega todo lo que esté fuera de la lista.
Combínala con una regla de secuencia que rompa la cadena recuperar→egress,
y una herramienta envenenada que intenta enviar un documento recuperado a un
host desconocido se deniega en el gateway.
6. Credenciales cifradas — un servidor comprometido no puede leer tus claves
Los secretos de auth de servidor se cifran en reposo y se inyectan por el gateway en el momento del despacho. Nunca llegan al modelo, al agente, ni a los argumentos de las llamadas a herramienta — así que un servidor comprometido o malicioso no puede exfiltrar tus claves API leyendo su propio blob de credenciales. La consola siempre devuelve el secreto enmascarado — incluso a un Admin. El valor descifrado se entrega en exactamente una ruta: una solicitud que lleva un token con alcance de gateway de firewall (un tipo de token dedicado que un Admin acuña explícitamente para el gateway/proxy), así que una clave de relay filtrada ordinaria no puede enumerar tus credenciales de MCP.7. Resumiéndolo para una auditoría
La gobernanza de cadena de suministro es también un artefacto de auditoría. OrcaRouter mapea al OWASP Top 10 para Aplicaciones de LLM — incluyendo el control LLM05 Supply Chain — como parte del motor de cumplimiento, junto a marcos comosoc2, iso_27001, iso_42001, nist_ai_rmf y el eu_ai_act.
Instalar un paquete de cumplimiento
(POST /api/compliance/packs/:key/install, Admin de espacio de trabajo,
plan de pago) materializa los guardrails y políticas de firewall coincidentes y
empieza en una postura observe-first. Los reportes de cumplimiento incluyen una
sección de evidencia de cadena-de-suministro de IA — los proveedores
upstream a los que tu espacio de trabajo realmente enrutó, más una revisión de
acceso privilegiado e higiene de claves — y están firmados con Ed25519 y son
públicamente verificables. Navegar el catálogo y la preparación es gratis para
cada Member; ver Cumplimiento para el
ciclo de vida completo.
La gobernanza MCP son dos capas complementarias: evaluación de firewall por
llamada en la superficie
mcp (aplicación sobre lo que una dependencia
hace), más una línea base de integridad de esquema de herramientas (hash
trust-on-first-use del conjunto de herramientas anunciado, re-verificado en
cada sonda — la deriva cambia el schema_status del servidor a changed y
falla el despacho cerrado hasta que un admin re-establece la línea base o lo
pone en cuarentena). Junto con las bandas de riesgo y cuarentena de skills, eso
es aplicación tanto sobre lo que una dependencia hace como un registro
verificable de lo que declaró.8. Una línea base de cadena de suministro
Antes de confiar en un nuevo servidor MCP o skill
Antes de confiar en un nuevo servidor MCP o skill
Regístralo, sondea su conjunto de herramientas, y acota una regla
<server>.* a pending_approval o audit. Lee los hallazgos del escaneo
— cualquier hallazgo de herramienta-no-declarada o egress-externo es una
razón para mantenerlo en cuarentena. Verifica quién controla la URL del
endpoint.En estado estable
En estado estable
Mantén una lista de permitidos de egress fijada para cualquier agente con
herramientas de fetch/search/export. Observa la vista de
Herramientas descubiertas para capacidades que
aparecieron sin una regla, y el feed de anomalías para rutas de herramienta
a herramienta novedosas.
Tras un rug-pull sospechado
Tras un rug-pull sospechado
Deshabilita el servidor (
PUT .../mcp_servers, "enabled": false) — sus
credenciales nunca se descifran mientras está deshabilitado. Re-sondea para
mostrar nuevas herramientas, re-escanea la skill, y revisa la cola de
pending_approval en vez de aprobar en masa.9. Amenazas y conceptos relacionados
- Envenenamiento de herramientas MCP y rug-pulls — la inmersión profunda en servidores MCP maliciosos y secuestrados.
- Exfiltración de datos — reglas de egress que restringen dónde pueden enviar datos las llamadas a herramienta.
- Llamadas a herramienta peligrosas — bloquear acciones destructivas sin importar de dónde vino la herramienta.
- Fuga de secretos — mantener credenciales fuera de prompts, argumentos y logs.
- Asegurar agentes de IA y la pila de controles — cómo encajan estos controles en la postura más amplia.
Firewall: Servidores MCP
Registra servidores MCP detrás del gateway, sondea sus herramientas, y
aplica un veredicto por llamada antes de que cualquier llamada alcance el
servidor real.
Firewall: Skills
Escanea y puntúa por riesgo cada capacidad instalable. Pon en cuarentena o
bloquea skills riesgosas antes de que sus herramientas se ejecuten.
