Glosario de seguridad de agentes de IA
Un índice de referencia rápida de cada término utilizado en la documentación Zero Trust. Cada definición está delimitada a lo que tú, como desarrollador en el gateway alojado, puedes observar y configurar. Los términos enlazan a sus páginas de inicio para detalles completos.Identidad y alcance
| Término | Definición |
|---|---|
| Espacio de trabajo | El límite superior del tenant. Todas las claves, guardrails, políticas de firewall y eventos de auditoría pertenecen a un espacio de trabajo; nada cruza los límites del tenant. Ver Alcance, claves y políticas. |
| Clave API (clave con alcance) | Un token bearer que tu agente presenta en cada llamada. Lleva su propia lista de modelos permitidos, restricciones de IP, tope de gasto, expiración y la política exacta de guardrail + firewall que le aplica. Ver Alcance, claves y políticas. |
model_limits | El conjunto de modelos (o globs de modelo) que una clave puede llamar. Las solicitudes para un modelo fuera de la lista se rechazan antes de cualquier llamada upstream. |
allow_ips | Una lista de IPs o CIDRs permitidos en la clave. Las solicitudes originadas desde una dirección fuera de la lista se rechazan en la autenticación. |
credit_limit_usd (tope de gasto) | Un techo de gasto fijo en la clave, en USD. Una vez que el uso acumulado de la clave alcanza el tope, las solicitudes adicionales se rechazan. Útil para acotar bucles de agentes descontrolados. |
| Etiqueta de entorno | Una etiqueta de texto libre (p. ej. production, staging) adjunta a una clave para organizarla e identificarla por entorno de despliegue. |
is_firewall_gateway | Un flag que limita el alcance de una clave para las rutas del gateway del Firewall (/api/v1/firewall/*) — los endpoints de despacho MCP y hook de evaluación. Una clave normal obtiene 403 en esas rutas. |
| Mínima agencia | El principio de dar a un agente solo los modelos, gasto, IPs y políticas que realmente necesita — nada más. Implementado combinando model_limits, allow_ips, credit_limit_usd y una política de firewall restrictiva en la misma clave. Ver Alcance, claves y políticas. |
Guardrails
| Término | Definición |
|---|---|
| Guardrail | Una política de contenido nombrada, con alcance de espacio de trabajo — una lista ordenada de reglas que el gateway ejecuta contra la entrada de la solicitud y la salida del modelo. Adjúntalo a una clave (o establécelo como valor por defecto del espacio de trabajo) una vez; cada llamada vinculada se examina sin redespliegue. |
| Regla | Una verificación dentro de un guardrail: un tipo (qué detectar), una etapa (dónde buscar) y una acción (qué hacer). Las reglas se ejecutan en orden. |
| Etapa | input (la solicitud del llamador), output (la respuesta del modelo) o both. Una regla se dispara solo en su etapa declarada. |
| Acción | block — rechazar toda la solicitud (HTTP 400); mask — redactar la coincidencia y dejar pasar la llamada; flag — solo registrar, sin cambio de tráfico. |
guardrail_blocked | El código de error devuelto cuando una regla de guardrail dispara una acción block. Devuelve HTTP 400. La solicitud no cuesta cuota — los bloques en etapa de entrada se disparan antes de la medición; los bloques en etapa de salida reembolsan la cuota preconsumida. |
| PII Shield | Una regla de tipo pii que detecta tipos de entidad sensibles integrados (email, teléfono, SSN, tarjeta de crédito, IP y más) y los enmascara con etiquetas tipadas. (El tipo de regla pii también soporta block por entidad cuando creas la tuya propia.) El punto de partida canónico para la prevención de pérdida de datos. Los secretos y credenciales están cubiertos por el preset separado Secrets Blocker. |
| Guardrail de inyección de prompts | Una regla de seguridad que detecta intentos de contenido no confiable (páginas web, resultados de herramientas) de secuestrar las instrucciones del agente. Se incluye como el preset Prompt-Injection Basics en la categoría de plantillas Safety. |
| Filtro de palabras sensibles | Una regla de tipo keyword que coincide con una lista de términos literales, sin distinguir mayúsculas y minúsculas. La lista de denegación más simple. |
| LLM judge | Una regla de tipo llm_judge que ejecuta una verificación semántica (toxicidad, fuera de tema, intención de jailbreak) contra un modelo en tu espacio de trabajo. Úsala para políticas difusas que ningún regex puede capturar. Los tokens se facturan como una sub-línea de juez. |
| Grounding contextual | Una regla de tipo grounding que puntúa la respuesta del modelo contra las fuentes RAG de la solicitud y marca o bloquea respuestas que no son fieles a ellas. |
| Log raw content | Un toggle por guardrail — desactivado por defecto (postura conservadora con la privacidad). Cuando está desactivado, el feed de Matches registra que una regla se disparó pero no la subcadena coincidente. Actívalo por guardrail cuando necesites la cadena real para triaje. |
| Feed de Matches | El registro a nivel de todo el espacio de trabajo de cada regla que se disparó: tipo de regla, acción, etapa, cadena de detalle y (cuando Log raw content está activado) la subcadena coincidente. Filtrable por guardrail, tipo de regla y acción. |
Agent Firewall
| Término | Definición |
|---|---|
| Política de firewall | Un conjunto ordenado de reglas nombrado, con alcance de espacio de trabajo, que el gateway evalúa en cada llamada a herramienta. Adjunta una vez a una clave o establece como valor por defecto del espacio de trabajo; sin cambios en el código del agente requeridos. |
| Veredicto | El resultado que produce una regla (o el valor por defecto) para una llamada a herramienta. Uno de allow, audit, deny, sanitize, pending_approval o cap_cost. |
| Veredicto por defecto | El veredicto aplicado cuando ninguna regla de la política coincide con la llamada a herramienta. Por defecto es audit — permite todo y lo registra — hasta que estés listo para aplicar. |
| Superficie de aplicación | El punto en el ciclo de vida de la solicitud donde el firewall ve una llamada: inbound (definiciones de herramienta que el agente anuncia), response (llamadas a herramienta que emite el modelo), mcp (un tools/call a través del gateway MCP) o egress (un destino saliente reportado por una herramienta). Ver Firewall. |
| Lista de permitidos de herramientas (glob) | Un tool_name_glob en una regla — una gramática pequeña sensible a mayúsculas y minúsculas (shell.*, *.exec, *) que coincide con un nombre de herramienta o familia. Gana la primera coincidencia contra la lista de reglas ordenada. |
| Validación de argumentos | Cláusulas args_match en una regla — operadores eq, contains, regex, in, cidr_match, gt, lt sobre campos JSONPath en los argumentos de la herramienta. La diferencia entre “bloquear shell.exec” y “bloquear shell.exec solo cuando el comando es rm -rf”. |
| Sanear | Un veredicto sanitize que redacta las subcadenas coincidentes (secretos, PII) de los argumentos de la herramienta y reenvía la llamada limpia, en vez de bloquear toda la acción. Escala a un bloqueo en la superficie inbound. |
| Control de egress | Una regla de superficie egress con una lista de permitidos o denegados de host/CIDR — la defensa principal contra SSRF y exfiltración de datos. El nivel de autonomía tight también deniega las herramientas con forma de fetch (http_fetch, fetch_url, web_search, request). |
cap_cost | Un veredicto que deniega llamadas a herramienta una vez que el gasto acumulado de la ejecución del agente (en centavos) supera un techo por regla. Un interruptor de circuito para bucles de agente descontrolados; se escribe como una regla y resuelve a allow o deny en eventos basándose en el gasto acumulado. |
| Regla de secuencia | Una regla con un bloque sequence que coincide con una cadena multi-paso ordenada de llamadas a herramienta dentro de una ventana de tiempo (p. ej. lectura-masiva → exportar → egress). Aplicada reactivamente por un matcher asíncrono; aparece en el feed de eventos. |
firewall_blocked | El código de error en una llamada a herramienta denegada. Devuelve HTTP 400 en inbound; un error de herramienta en mcp. Marcado skip-retry. |
Aprobación / HITL (pending_approval) | Un veredicto pending_approval retiene una llamada a herramienta para revisión humana. El agente recibe una respuesta retenida con un id de aprobación, un revisor aprueba o rechaza fuera de banda y el agente reenvía con un token de aprobación de un solo uso. El código de error HTTP mientras está retenido es firewall_approval_pending. |
| Detección de anomalías | Capa estadística por encima de las reglas estáticas. Puntúa la actividad por herramienta contra una línea base de hora-de-la-semana de 14 días y marca picos, bucles de reintento y caminos de transición de herramienta novedosos en un feed revisable. |
Posturas
| Término | Definición |
|---|---|
| Observe mode | Una configuración a nivel de espacio de trabajo. Cuando está activado y ninguna política está adjunta a una clave, las llamadas a herramienta están permitidas pero se registran como brechas de cobertura, populando la vista de Discovered Tools. |
| Shadow mode | Un flag en una política. La política evalúa y registra exactamente como lo haría en producción, pero cada veredicto aplicante se degrada a audit (razón con prefijo [shadow] would …). Interruptor de despliegue seguro. |
| Enforce | El estado por defecto cuando el shadow mode está desactivado y una política está adjunta. Los veredictos surten efecto — deny bloquea, sanitize redacta, pending_approval retiene. |
| Nivel de autonomía | Un único interruptor (tight / balanced / permissive) que atómicamente reemplaza la postura de Firewall y Guardrails del espacio de trabajo en una transacción con deshacer de un clic. Ver Modos de aplicación y Línea base de Agentes Seguros. |
MCP y skills
| Término | Definición |
|---|---|
| Servidor MCP | Un servidor Model Context Protocol registrado en tu espacio de trabajo y expuesto a través del gateway MCP del Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Cada tools/call que recibe se evalúa en línea. Ver Firewall MCP. |
tools/call | El mensaje del protocolo MCP que despacha una herramienta a un servidor MCP. El firewall lo evalúa en la superficie mcp antes de reenviar. |
| Rug-pull | Un riesgo de cadena de suministro donde un servidor MCP o capacidad instalada cambia o expande sus definiciones de herramienta después de que le hayas otorgado acceso. OrcaRouter gobierna el radio de impacto: cada tools/call MCP es evaluado en el firewall en la superficie mcp contra tus reglas, y una skill que escanea como riesgosa se retiene en quarantine hasta que un humano la revise. |
| Skill | Un paquete de capacidades (una o más herramientas de uno o más servidores MCP) que el gateway escanea en busca de riesgo al registrarse. Cada skill obtiene una banda de riesgo y un modo de aplicación (allow, quarantine, block) que se superpone sobre los veredictos a nivel de política. |
Cumplimiento y datos
| Término | Definición |
|---|---|
| Pack de cumplimiento | Un paquete de guardrail + política de firewall preconstruido para un perfil regulatorio (GDPR, PCI, HIPAA, datos financieros). Aplica una vez desde la biblioteca de plantillas; las reglas son editables después de la aplicación. |
| Reporte de cumplimiento firmado | Un reporte de atestación a nivel de espacio de trabajo firmado con Ed25519. La firma es públicamente verificable — cualquiera con la clave pública puede confirmar que el reporte no ha sido manipulado. |
| Residencia de datos | La región registrada para tu evidencia de cumplimiento. Los reportes de cumplimiento firmados se estampan y almacenan por región (us, eu, uk, ap, cn, global), y un reporte solo se sirve bajo una región declarada coincidente. Establécela en la configuración de cumplimiento. |
| Derecho de eliminación | En una eliminación de espacio de trabajo o solicitud de borrado explícita, OrcaRouter otorga un período de gracia de 30 días, luego depura PII de los logs y registros de auditoría de ese espacio de trabajo. |
| Evento de auditoría | Un registro inmutable escrito después de cada creación, actualización, eliminación y decisión de aplicación — cambios de política, ediciones de regla, resoluciones de aprobación, guardados de guardrail. Los valores de secretos y blobs de reglas nunca se escriben en el log de auditoría. |
Amenazas (una línea cada una)
| Amenaza | Qué es |
|---|---|
| Inyección de prompts | Un atacante incrusta instrucciones en contenido que el agente ingiere (directa: en el mensaje del usuario; indirecta: en una página web, documento o resultado de herramienta) para secuestrar el comportamiento del agente. |
| Jailbreak | Un prompt crafteado que intenta eludir el entrenamiento de seguridad de un modelo, típicamente enmarcando la solicitud como roleplay, hipotético o una anulación del sistema. |
| Agencia excesiva / deputy confundido | Un agente al que se le otorgan permisos más amplios de los que requiere su tarea, haciéndolo trivialmente explotable por instrucciones inyectadas — la mitigación clave es la mínima agencia. |
| Exfiltración de datos | Un agente (o instrucción inyectada) que dirige llamadas a herramienta o solicitudes salientes para filtrar datos sensibles a un endpoint controlado por el atacante. Mitigado por las reglas de control de egress. |
| Denegación de billetera | Un agente descontrolado o desencadenado adversarialmente que genera un gasto del modelo upstream ilimitado. Mitigado por credit_limit_usd en la clave y reglas cap_cost en la política de firewall. |
Para el panorama completo de cómo se componen estos controles, ver Cómo asegurar agentes de IA con OrcaRouter.
