Glosario de conceptos

Glosario de seguridad de agentes de IA

Un índice de referencia rápida de cada término utilizado en la documentación Zero Trust. Cada definición está delimitada a lo que tú, como desarrollador en el gateway alojado, puedes observar y configurar. Los términos enlazan a sus páginas de inicio para detalles completos.

Identidad y alcance

Término	Definición
Espacio de trabajo	El límite superior del tenant. Todas las claves, guardrails, políticas de firewall y eventos de auditoría pertenecen a un espacio de trabajo; nada cruza los límites del tenant. Ver Alcance, claves y políticas.
Clave API (clave con alcance)	Un token bearer que tu agente presenta en cada llamada. Lleva su propia lista de modelos permitidos, restricciones de IP, tope de gasto, expiración y la política exacta de guardrail + firewall que le aplica. Ver Alcance, claves y políticas.
`model_limits`	El conjunto de modelos (o globs de modelo) que una clave puede llamar. Las solicitudes para un modelo fuera de la lista se rechazan antes de cualquier llamada upstream.
`allow_ips`	Una lista de IPs o CIDRs permitidos en la clave. Las solicitudes originadas desde una dirección fuera de la lista se rechazan en la autenticación.
`credit_limit_usd` (tope de gasto)	Un techo de gasto fijo en la clave, en USD. Una vez que el uso acumulado de la clave alcanza el tope, las solicitudes adicionales se rechazan. Útil para acotar bucles de agentes descontrolados.
Etiqueta de entorno	Una etiqueta de texto libre (p. ej. `production`, `staging`) adjunta a una clave para organizarla e identificarla por entorno de despliegue.
`is_firewall_gateway`	Un flag que limita el alcance de una clave para las rutas del gateway del Firewall (`/api/v1/firewall/*`) — los endpoints de despacho MCP y hook de evaluación. Una clave normal obtiene `403` en esas rutas.
Mínima agencia	El principio de dar a un agente solo los modelos, gasto, IPs y políticas que realmente necesita — nada más. Implementado combinando `model_limits`, `allow_ips`, `credit_limit_usd` y una política de firewall restrictiva en la misma clave. Ver Alcance, claves y políticas.

Guardrails

Término	Definición
Guardrail	Una política de contenido nombrada, con alcance de espacio de trabajo — una lista ordenada de reglas que el gateway ejecuta contra la entrada de la solicitud y la salida del modelo. Adjúntalo a una clave (o establécelo como valor por defecto del espacio de trabajo) una vez; cada llamada vinculada se examina sin redespliegue.
Regla	Una verificación dentro de un guardrail: un tipo (qué detectar), una etapa (dónde buscar) y una acción (qué hacer). Las reglas se ejecutan en orden.
Etapa	`input` (la solicitud del llamador), `output` (la respuesta del modelo) o `both`. Una regla se dispara solo en su etapa declarada.
Acción	`block` — rechazar toda la solicitud (HTTP 400); `mask` — redactar la coincidencia y dejar pasar la llamada; `flag` — solo registrar, sin cambio de tráfico.
`guardrail_blocked`	El código de error devuelto cuando una regla de guardrail dispara una acción `block`. Devuelve HTTP 400. La solicitud no cuesta cuota — los bloques en etapa de entrada se disparan antes de la medición; los bloques en etapa de salida reembolsan la cuota preconsumida.
PII Shield	Una regla de tipo `pii` que detecta tipos de entidad sensibles integrados (email, teléfono, SSN, tarjeta de crédito, IP y más) y los enmascara con etiquetas tipadas. (El tipo de regla `pii` también soporta `block` por entidad cuando creas la tuya propia.) El punto de partida canónico para la prevención de pérdida de datos. Los secretos y credenciales están cubiertos por el preset separado Secrets Blocker.
Guardrail de inyección de prompts	Una regla de seguridad que detecta intentos de contenido no confiable (páginas web, resultados de herramientas) de secuestrar las instrucciones del agente. Se incluye como el preset Prompt-Injection Basics en la categoría de plantillas Safety.
Filtro de palabras sensibles	Una regla de tipo `keyword` que coincide con una lista de términos literales, sin distinguir mayúsculas y minúsculas. La lista de denegación más simple.
LLM judge	Una regla de tipo `llm_judge` que ejecuta una verificación semántica (toxicidad, fuera de tema, intención de jailbreak) contra un modelo en tu espacio de trabajo. Úsala para políticas difusas que ningún regex puede capturar. Los tokens se facturan como una sub-línea de juez.
Grounding contextual	Una regla de tipo `grounding` que puntúa la respuesta del modelo contra las fuentes RAG de la solicitud y marca o bloquea respuestas que no son fieles a ellas.
Log raw content	Un toggle por guardrail — desactivado por defecto (postura conservadora con la privacidad). Cuando está desactivado, el feed de Matches registra que una regla se disparó pero no la subcadena coincidente. Actívalo por guardrail cuando necesites la cadena real para triaje.
Feed de Matches	El registro a nivel de todo el espacio de trabajo de cada regla que se disparó: tipo de regla, acción, etapa, cadena de detalle y (cuando Log raw content está activado) la subcadena coincidente. Filtrable por guardrail, tipo de regla y acción.

Agent Firewall

Término	Definición
Política de firewall	Un conjunto ordenado de reglas nombrado, con alcance de espacio de trabajo, que el gateway evalúa en cada llamada a herramienta. Adjunta una vez a una clave o establece como valor por defecto del espacio de trabajo; sin cambios en el código del agente requeridos.
Veredicto	El resultado que produce una regla (o el valor por defecto) para una llamada a herramienta. Uno de `allow`, `audit`, `deny`, `sanitize`, `pending_approval` o `cap_cost`.
Veredicto por defecto	El veredicto aplicado cuando ninguna regla de la política coincide con la llamada a herramienta. Por defecto es `audit` — permite todo y lo registra — hasta que estés listo para aplicar.
Superficie de aplicación	El punto en el ciclo de vida de la solicitud donde el firewall ve una llamada: `inbound` (definiciones de herramienta que el agente anuncia), `response` (llamadas a herramienta que emite el modelo), `mcp` (un `tools/call` a través del gateway MCP) o `egress` (un destino saliente reportado por una herramienta). Ver Firewall.
Lista de permitidos de herramientas (glob)	Un `tool_name_glob` en una regla — una gramática pequeña sensible a mayúsculas y minúsculas (`shell.`, `.exec`, `*`) que coincide con un nombre de herramienta o familia. Gana la primera coincidencia contra la lista de reglas ordenada.
Validación de argumentos	Cláusulas `args_match` en una regla — operadores `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` sobre campos JSONPath en los argumentos de la herramienta. La diferencia entre “bloquear `shell.exec`” y “bloquear `shell.exec` solo cuando el comando es `rm -rf`”.
Sanear	Un veredicto `sanitize` que redacta las subcadenas coincidentes (secretos, PII) de los argumentos de la herramienta y reenvía la llamada limpia, en vez de bloquear toda la acción. Escala a un bloqueo en la superficie `inbound`.
Control de egress	Una regla de superficie `egress` con una lista de permitidos o denegados de host/CIDR — la defensa principal contra SSRF y exfiltración de datos. El nivel de autonomía `tight` también deniega las herramientas con forma de fetch (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Un veredicto que deniega llamadas a herramienta una vez que el gasto acumulado de la ejecución del agente (en centavos) supera un techo por regla. Un interruptor de circuito para bucles de agente descontrolados; se escribe como una regla y resuelve a allow o deny en eventos basándose en el gasto acumulado.
Regla de secuencia	Una regla con un bloque `sequence` que coincide con una cadena multi-paso ordenada de llamadas a herramienta dentro de una ventana de tiempo (p. ej. lectura-masiva → exportar → egress). Aplicada reactivamente por un matcher asíncrono; aparece en el feed de eventos.
`firewall_blocked`	El código de error en una llamada a herramienta denegada. Devuelve HTTP 400 en `inbound`; un error de herramienta en `mcp`. Marcado skip-retry.
Aprobación / HITL (`pending_approval`)	Un veredicto `pending_approval` retiene una llamada a herramienta para revisión humana. El agente recibe una respuesta retenida con un id de aprobación, un revisor aprueba o rechaza fuera de banda y el agente reenvía con un token de aprobación de un solo uso. El código de error HTTP mientras está retenido es `firewall_approval_pending`.
Detección de anomalías	Capa estadística por encima de las reglas estáticas. Puntúa la actividad por herramienta contra una línea base de hora-de-la-semana de 14 días y marca picos, bucles de reintento y caminos de transición de herramienta novedosos en un feed revisable.

Posturas

Término	Definición
Observe mode	Una configuración a nivel de espacio de trabajo. Cuando está activado y ninguna política está adjunta a una clave, las llamadas a herramienta están permitidas pero se registran como brechas de cobertura, populando la vista de Discovered Tools.
Shadow mode	Un flag en una política. La política evalúa y registra exactamente como lo haría en producción, pero cada veredicto aplicante se degrada a `audit` (razón con prefijo `[shadow] would …`). Interruptor de despliegue seguro.
Enforce	El estado por defecto cuando el shadow mode está desactivado y una política está adjunta. Los veredictos surten efecto — `deny` bloquea, `sanitize` redacta, `pending_approval` retiene.
Nivel de autonomía	Un único interruptor (`tight` / `balanced` / `permissive`) que atómicamente reemplaza la postura de Firewall y Guardrails del espacio de trabajo en una transacción con deshacer de un clic. Ver Modos de aplicación y Línea base de Agentes Seguros.

MCP y skills

Término	Definición
Servidor MCP	Un servidor Model Context Protocol registrado en tu espacio de trabajo y expuesto a través del gateway MCP del Firewall (`api.orcarouter.ai/api/v1/firewall/mcp`). Cada `tools/call` que recibe se evalúa en línea. Ver Firewall MCP.
`tools/call`	El mensaje del protocolo MCP que despacha una herramienta a un servidor MCP. El firewall lo evalúa en la superficie `mcp` antes de reenviar.
Rug-pull	Un riesgo de cadena de suministro donde un servidor MCP o capacidad instalada cambia o expande sus definiciones de herramienta después de que le hayas otorgado acceso. OrcaRouter gobierna el radio de impacto: cada `tools/call` MCP es evaluado en el firewall en la superficie `mcp` contra tus reglas, y una skill que escanea como riesgosa se retiene en `quarantine` hasta que un humano la revise.
Skill	Un paquete de capacidades (una o más herramientas de uno o más servidores MCP) que el gateway escanea en busca de riesgo al registrarse. Cada skill obtiene una banda de riesgo y un modo de aplicación (`allow`, `quarantine`, `block`) que se superpone sobre los veredictos a nivel de política.

Cumplimiento y datos

Término	Definición
Pack de cumplimiento	Un paquete de guardrail + política de firewall preconstruido para un perfil regulatorio (GDPR, PCI, HIPAA, datos financieros). Aplica una vez desde la biblioteca de plantillas; las reglas son editables después de la aplicación.
Reporte de cumplimiento firmado	Un reporte de atestación a nivel de espacio de trabajo firmado con Ed25519. La firma es públicamente verificable — cualquiera con la clave pública puede confirmar que el reporte no ha sido manipulado.
Residencia de datos	La región registrada para tu evidencia de cumplimiento. Los reportes de cumplimiento firmados se estampan y almacenan por región (`us`, `eu`, `uk`, `ap`, `cn`, `global`), y un reporte solo se sirve bajo una región declarada coincidente. Establécela en la configuración de cumplimiento.
Derecho de eliminación	En una eliminación de espacio de trabajo o solicitud de borrado explícita, OrcaRouter otorga un período de gracia de 30 días, luego depura PII de los logs y registros de auditoría de ese espacio de trabajo.
Evento de auditoría	Un registro inmutable escrito después de cada creación, actualización, eliminación y decisión de aplicación — cambios de política, ediciones de regla, resoluciones de aprobación, guardados de guardrail. Los valores de secretos y blobs de reglas nunca se escriben en el log de auditoría.

Amenazas (una línea cada una)

Amenaza	Qué es
Inyección de prompts	Un atacante incrusta instrucciones en contenido que el agente ingiere (directa: en el mensaje del usuario; indirecta: en una página web, documento o resultado de herramienta) para secuestrar el comportamiento del agente.
Jailbreak	Un prompt crafteado que intenta eludir el entrenamiento de seguridad de un modelo, típicamente enmarcando la solicitud como roleplay, hipotético o una anulación del sistema.
Agencia excesiva / deputy confundido	Un agente al que se le otorgan permisos más amplios de los que requiere su tarea, haciéndolo trivialmente explotable por instrucciones inyectadas — la mitigación clave es la mínima agencia.
Exfiltración de datos	Un agente (o instrucción inyectada) que dirige llamadas a herramienta o solicitudes salientes para filtrar datos sensibles a un endpoint controlado por el atacante. Mitigado por las reglas de control de egress.
Denegación de billetera	Un agente descontrolado o desencadenado adversarialmente que genera un gasto del modelo upstream ilimitado. Mitigado por `credit_limit_usd` en la clave y reglas `cap_cost` en la política de firewall.

Para el panorama completo de cómo se componen estos controles, ver Cómo asegurar agentes de IA con OrcaRouter.

​Glosario de seguridad de agentes de IA

​Identidad y alcance

​Guardrails

​Agent Firewall

​Posturas

​MCP y skills

​Cumplimiento y datos

​Amenazas (una línea cada una)