Saltar al contenido principal

Glosario de seguridad de agentes de IA

Un índice de referencia rápida de cada término utilizado en la documentación Zero Trust. Cada definición está delimitada a lo que tú, como desarrollador en el gateway alojado, puedes observar y configurar. Los términos enlazan a sus páginas de inicio para detalles completos.

Identidad y alcance

TérminoDefinición
Espacio de trabajoEl límite superior del tenant. Todas las claves, guardrails, políticas de firewall y eventos de auditoría pertenecen a un espacio de trabajo; nada cruza los límites del tenant. Ver Alcance, claves y políticas.
Clave API (clave con alcance)Un token bearer que tu agente presenta en cada llamada. Lleva su propia lista de modelos permitidos, restricciones de IP, tope de gasto, expiración y la política exacta de guardrail + firewall que le aplica. Ver Alcance, claves y políticas.
model_limitsEl conjunto de modelos (o globs de modelo) que una clave puede llamar. Las solicitudes para un modelo fuera de la lista se rechazan antes de cualquier llamada upstream.
allow_ipsUna lista de IPs o CIDRs permitidos en la clave. Las solicitudes originadas desde una dirección fuera de la lista se rechazan en la autenticación.
credit_limit_usd (tope de gasto)Un techo de gasto fijo en la clave, en USD. Una vez que el uso acumulado de la clave alcanza el tope, las solicitudes adicionales se rechazan. Útil para acotar bucles de agentes descontrolados.
Etiqueta de entornoUna etiqueta de texto libre (p. ej. production, staging) adjunta a una clave para organizarla e identificarla por entorno de despliegue.
is_firewall_gatewayUn flag que limita el alcance de una clave para las rutas del gateway del Firewall (/api/v1/firewall/*) — los endpoints de despacho MCP y hook de evaluación. Una clave normal obtiene 403 en esas rutas.
Mínima agenciaEl principio de dar a un agente solo los modelos, gasto, IPs y políticas que realmente necesita — nada más. Implementado combinando model_limits, allow_ips, credit_limit_usd y una política de firewall restrictiva en la misma clave. Ver Alcance, claves y políticas.

Guardrails

TérminoDefinición
GuardrailUna política de contenido nombrada, con alcance de espacio de trabajo — una lista ordenada de reglas que el gateway ejecuta contra la entrada de la solicitud y la salida del modelo. Adjúntalo a una clave (o establécelo como valor por defecto del espacio de trabajo) una vez; cada llamada vinculada se examina sin redespliegue.
ReglaUna verificación dentro de un guardrail: un tipo (qué detectar), una etapa (dónde buscar) y una acción (qué hacer). Las reglas se ejecutan en orden.
Etapainput (la solicitud del llamador), output (la respuesta del modelo) o both. Una regla se dispara solo en su etapa declarada.
Acciónblock — rechazar toda la solicitud (HTTP 400); mask — redactar la coincidencia y dejar pasar la llamada; flag — solo registrar, sin cambio de tráfico.
guardrail_blockedEl código de error devuelto cuando una regla de guardrail dispara una acción block. Devuelve HTTP 400. La solicitud no cuesta cuota — los bloques en etapa de entrada se disparan antes de la medición; los bloques en etapa de salida reembolsan la cuota preconsumida.
PII ShieldUna regla de tipo pii que detecta tipos de entidad sensibles integrados (email, teléfono, SSN, tarjeta de crédito, IP y más) y los enmascara con etiquetas tipadas. (El tipo de regla pii también soporta block por entidad cuando creas la tuya propia.) El punto de partida canónico para la prevención de pérdida de datos. Los secretos y credenciales están cubiertos por el preset separado Secrets Blocker.
Guardrail de inyección de promptsUna regla de seguridad que detecta intentos de contenido no confiable (páginas web, resultados de herramientas) de secuestrar las instrucciones del agente. Se incluye como el preset Prompt-Injection Basics en la categoría de plantillas Safety.
Filtro de palabras sensiblesUna regla de tipo keyword que coincide con una lista de términos literales, sin distinguir mayúsculas y minúsculas. La lista de denegación más simple.
LLM judgeUna regla de tipo llm_judge que ejecuta una verificación semántica (toxicidad, fuera de tema, intención de jailbreak) contra un modelo en tu espacio de trabajo. Úsala para políticas difusas que ningún regex puede capturar. Los tokens se facturan como una sub-línea de juez.
Grounding contextualUna regla de tipo grounding que puntúa la respuesta del modelo contra las fuentes RAG de la solicitud y marca o bloquea respuestas que no son fieles a ellas.
Log raw contentUn toggle por guardrail — desactivado por defecto (postura conservadora con la privacidad). Cuando está desactivado, el feed de Matches registra que una regla se disparó pero no la subcadena coincidente. Actívalo por guardrail cuando necesites la cadena real para triaje.
Feed de MatchesEl registro a nivel de todo el espacio de trabajo de cada regla que se disparó: tipo de regla, acción, etapa, cadena de detalle y (cuando Log raw content está activado) la subcadena coincidente. Filtrable por guardrail, tipo de regla y acción.

Agent Firewall

TérminoDefinición
Política de firewallUn conjunto ordenado de reglas nombrado, con alcance de espacio de trabajo, que el gateway evalúa en cada llamada a herramienta. Adjunta una vez a una clave o establece como valor por defecto del espacio de trabajo; sin cambios en el código del agente requeridos.
VeredictoEl resultado que produce una regla (o el valor por defecto) para una llamada a herramienta. Uno de allow, audit, deny, sanitize, pending_approval o cap_cost.
Veredicto por defectoEl veredicto aplicado cuando ninguna regla de la política coincide con la llamada a herramienta. Por defecto es audit — permite todo y lo registra — hasta que estés listo para aplicar.
Superficie de aplicaciónEl punto en el ciclo de vida de la solicitud donde el firewall ve una llamada: inbound (definiciones de herramienta que el agente anuncia), response (llamadas a herramienta que emite el modelo), mcp (un tools/call a través del gateway MCP) o egress (un destino saliente reportado por una herramienta). Ver Firewall.
Lista de permitidos de herramientas (glob)Un tool_name_glob en una regla — una gramática pequeña sensible a mayúsculas y minúsculas (shell.*, *.exec, *) que coincide con un nombre de herramienta o familia. Gana la primera coincidencia contra la lista de reglas ordenada.
Validación de argumentosCláusulas args_match en una regla — operadores eq, contains, regex, in, cidr_match, gt, lt sobre campos JSONPath en los argumentos de la herramienta. La diferencia entre “bloquear shell.exec” y “bloquear shell.exec solo cuando el comando es rm -rf”.
SanearUn veredicto sanitize que redacta las subcadenas coincidentes (secretos, PII) de los argumentos de la herramienta y reenvía la llamada limpia, en vez de bloquear toda la acción. Escala a un bloqueo en la superficie inbound.
Control de egressUna regla de superficie egress con una lista de permitidos o denegados de host/CIDR — la defensa principal contra SSRF y exfiltración de datos. El nivel de autonomía tight también deniega las herramientas con forma de fetch (http_fetch, fetch_url, web_search, request).
cap_costUn veredicto que deniega llamadas a herramienta una vez que el gasto acumulado de la ejecución del agente (en centavos) supera un techo por regla. Un interruptor de circuito para bucles de agente descontrolados; se escribe como una regla y resuelve a allow o deny en eventos basándose en el gasto acumulado.
Regla de secuenciaUna regla con un bloque sequence que coincide con una cadena multi-paso ordenada de llamadas a herramienta dentro de una ventana de tiempo (p. ej. lectura-masiva → exportar → egress). Aplicada reactivamente por un matcher asíncrono; aparece en el feed de eventos.
firewall_blockedEl código de error en una llamada a herramienta denegada. Devuelve HTTP 400 en inbound; un error de herramienta en mcp. Marcado skip-retry.
Aprobación / HITL (pending_approval)Un veredicto pending_approval retiene una llamada a herramienta para revisión humana. El agente recibe una respuesta retenida con un id de aprobación, un revisor aprueba o rechaza fuera de banda y el agente reenvía con un token de aprobación de un solo uso. El código de error HTTP mientras está retenido es firewall_approval_pending.
Detección de anomalíasCapa estadística por encima de las reglas estáticas. Puntúa la actividad por herramienta contra una línea base de hora-de-la-semana de 14 días y marca picos, bucles de reintento y caminos de transición de herramienta novedosos en un feed revisable.

Posturas

TérminoDefinición
Observe modeUna configuración a nivel de espacio de trabajo. Cuando está activado y ninguna política está adjunta a una clave, las llamadas a herramienta están permitidas pero se registran como brechas de cobertura, populando la vista de Discovered Tools.
Shadow modeUn flag en una política. La política evalúa y registra exactamente como lo haría en producción, pero cada veredicto aplicante se degrada a audit (razón con prefijo [shadow] would …). Interruptor de despliegue seguro.
EnforceEl estado por defecto cuando el shadow mode está desactivado y una política está adjunta. Los veredictos surten efecto — deny bloquea, sanitize redacta, pending_approval retiene.
Nivel de autonomíaUn único interruptor (tight / balanced / permissive) que atómicamente reemplaza la postura de Firewall y Guardrails del espacio de trabajo en una transacción con deshacer de un clic. Ver Modos de aplicación y Línea base de Agentes Seguros.

MCP y skills

TérminoDefinición
Servidor MCPUn servidor Model Context Protocol registrado en tu espacio de trabajo y expuesto a través del gateway MCP del Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Cada tools/call que recibe se evalúa en línea. Ver Firewall MCP.
tools/callEl mensaje del protocolo MCP que despacha una herramienta a un servidor MCP. El firewall lo evalúa en la superficie mcp antes de reenviar.
Rug-pullUn riesgo de cadena de suministro donde un servidor MCP o capacidad instalada cambia o expande sus definiciones de herramienta después de que le hayas otorgado acceso. OrcaRouter gobierna el radio de impacto: cada tools/call MCP es evaluado en el firewall en la superficie mcp contra tus reglas, y una skill que escanea como riesgosa se retiene en quarantine hasta que un humano la revise.
SkillUn paquete de capacidades (una o más herramientas de uno o más servidores MCP) que el gateway escanea en busca de riesgo al registrarse. Cada skill obtiene una banda de riesgo y un modo de aplicación (allow, quarantine, block) que se superpone sobre los veredictos a nivel de política.

Cumplimiento y datos

TérminoDefinición
Pack de cumplimientoUn paquete de guardrail + política de firewall preconstruido para un perfil regulatorio (GDPR, PCI, HIPAA, datos financieros). Aplica una vez desde la biblioteca de plantillas; las reglas son editables después de la aplicación.
Reporte de cumplimiento firmadoUn reporte de atestación a nivel de espacio de trabajo firmado con Ed25519. La firma es públicamente verificable — cualquiera con la clave pública puede confirmar que el reporte no ha sido manipulado.
Residencia de datosLa región registrada para tu evidencia de cumplimiento. Los reportes de cumplimiento firmados se estampan y almacenan por región (us, eu, uk, ap, cn, global), y un reporte solo se sirve bajo una región declarada coincidente. Establécela en la configuración de cumplimiento.
Derecho de eliminaciónEn una eliminación de espacio de trabajo o solicitud de borrado explícita, OrcaRouter otorga un período de gracia de 30 días, luego depura PII de los logs y registros de auditoría de ese espacio de trabajo.
Evento de auditoríaUn registro inmutable escrito después de cada creación, actualización, eliminación y decisión de aplicación — cambios de política, ediciones de regla, resoluciones de aprobación, guardados de guardrail. Los valores de secretos y blobs de reglas nunca se escriben en el log de auditoría.

Amenazas (una línea cada una)

AmenazaQué es
Inyección de promptsUn atacante incrusta instrucciones en contenido que el agente ingiere (directa: en el mensaje del usuario; indirecta: en una página web, documento o resultado de herramienta) para secuestrar el comportamiento del agente.
JailbreakUn prompt crafteado que intenta eludir el entrenamiento de seguridad de un modelo, típicamente enmarcando la solicitud como roleplay, hipotético o una anulación del sistema.
Agencia excesiva / deputy confundidoUn agente al que se le otorgan permisos más amplios de los que requiere su tarea, haciéndolo trivialmente explotable por instrucciones inyectadas — la mitigación clave es la mínima agencia.
Exfiltración de datosUn agente (o instrucción inyectada) que dirige llamadas a herramienta o solicitudes salientes para filtrar datos sensibles a un endpoint controlado por el atacante. Mitigado por las reglas de control de egress.
Denegación de billeteraUn agente descontrolado o desencadenado adversarialmente que genera un gasto del modelo upstream ilimitado. Mitigado por credit_limit_usd en la clave y reglas cap_cost en la política de firewall.

Para el panorama completo de cómo se componen estos controles, ver Cómo asegurar agentes de IA con OrcaRouter.