Saltar al contenido principal
Has leído una página de control y te queda una pregunta antes de lanzar. Este es el faq de seguridad de agentes de ia — las preguntas transversales que abarcan toda la sección de Zero-Trust, respondidas en un solo lugar, cada una enlazando a la referencia para profundizar. Si eres completamente nuevo en la sección, empieza en Asegurar agentes de IA y la pila de controles; esta página asume que sabes que hay dos planos de aplicación — Guardrails (texto de prompt/respuesta) y el Firewall (acciones del agente) — y solo necesitas afinar los bordes.

1. faq de seguridad de agentes de ia — empieza aquí

Un mapa de 30 segundos de qué control responde qué pregunta:
Estás preguntando sobre…El planoLee
Texto en prompts o respuestas (PII, secretos, jailbreaks)GuardrailsGuardrails
Llamadas a herramienta, MCP, egress, skillsFirewallFirewall
Cuál se disparó en un 400Cualquiera¿Por qué se bloqueó?
Cada bloqueo de seguridad en el gateway alojado es HTTP 400 con un code legible por máquina. Lee el código primero — te bifurca al feed correcto. La tabla completa vive en Códigos de error.

2. Guardrails — examen de contenido

Nada. La resolución es: guardrail_id explícito en la clave (si existe y está habilitado) → en caso contrario el guardrail is_default del espacio de trabajo → en caso contrario sin aplicación. Un adjunto explícito deshabilitado es el interruptor de apagado — no hace fallback al valor por defecto. Sin nada resuelto, la solicitud es idéntica byte a byte a un espacio de trabajo que nunca habilitó la función.
No. Una acción block devuelve 400 guardrail_blocked y no cuesta cuota — un bloqueo en etapa de entrada se dispara antes del medido; un bloqueo en etapa de salida reembolsa la cuota preconsumida. También está marcado skip-retry: reejecutar el prompt idéntico simplemente vuelve a bloquear.
Tipos de regla: keyword, regex, pii, max_chars, external, llm_judge, grounding. Acciones: block (rechazar), mask (redactar y reenviar), flag (solo registrar, sin cambio de tráfico). Etapas: input, output, both. Ve Guardrails para cada uno.
Las entidades integradas incluyen email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, más tipos regionales (jp_mynumber, kr_rrn, cn_resident_id). Una acción mask renderiza una etiqueta tipada — jane@acme.com[EMAIL], un SSN → [SSN]. Puedes superponer hasta 25 entidades regex personalizadas por regla (con un checksum Luhn opcional) y anular la acción por entidad vía entity_actions.
El block de salida se aplica de ambas formas — las respuestas sin streaming se examinan antes de retornar, y un escáner de streaming corta el stream en pleno vuelo. El mask de salida es actualmente solo sin streaming; en una respuesta en streaming el chunk pasa sin enmascarar (la reescritura de stream en banda está en la hoja de ruta). El enmascarado en etapa de entrada — saneando la solicitud antes de que el modelo la vea — está activo en cualquier caso. El preset PII Shield enmascara en la etapa de entrada hoy.
Las reglas keyword / regex / pii / max_chars no hacen llamada a modelo y no facturan nada. Una regla llm_judge ejecuta una verificación semántica a través de un modelo del espacio de trabajo (acotada por judge_timeout_ms, fail-open por defecto) y se factura como una sub-línea de juez separada. Una regla grounding puntúa la fidelidad de la respuesta contra las fuentes recuperadas de la solicitud (umbral por defecto 0.7) de la misma forma.
Abre el feed de Matches (GET /api/guardrail/match, Member). Cada fila registra el tipo de regla, la acción, la etapa y una cadena de detalle — y la subcadena coincidente solo si “Log raw content” está activado para ese guardrail (apagado por defecto, la postura conservadora con la privacidad). ¿Bloqueo incorrecto? Márcalo como falso positivo (POST /api/guardrail/match/:id/mark-fp, Admin).
Un guardrail puede decorar un prompt con un aviso de seguridad de código (p. ej. una nota CVE/SBOM sobre un paquete referenciado) sin bloquear ni enmascarar el texto. Esta es una capa de anotación que aumenta la solicitud en vez de rechazarla — distinta de las acciones block / mask / flag que autoras directamente. Conecta un escáner bajo Integraciones para impulsarlo.

3. Firewall — acciones del agente

Una diferencia clave: una política de firewall adjunta deshabilitada hace fallback al valor por defecto del espacio de trabajo, mientras que un guardrail adjunto deshabilitado resuelve a ninguno. Por lo demás ambos se adjuntan vía la clave (firewall_policy_id / guardrail_id) y comparten el fallback al valor por defecto del espacio de trabajo. Ve Guardrails vs Firewall.
Veredictos: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict es allow / audit / deny (audit por defecto). Superficies: inbound (herramientas anunciadas), response (tool_calls emitidos por el modelo), mcp (un tools/call), egress (host/IP/CIDR saliente). El glosario de veredictos decodifica cada uno.
No — y esta es la idea equivocada común. Un veredicto sanitize redacta las subcadenas coincidentes de los argumentos de la llamada a herramienta solamente, nunca el contenido que una herramienta devuelve. En la superficie inbound (aún sin args en tiempo de llamada) sanitize escala a un deny.
Un interruptor establece toda tu postura, escribiendo filas autonomy_* reales y editables:
balanced (inicio recomendado) — audit por defecto, deny del shell destructivo, PII Shield en solo-audit (marca PII).
tight — default-deny, deny del shell destructivo, deny de las herramientas de fetch con forma de SSRF, PII Shield + Secrets Blocker aplicados.
permissive — solo observe.
El deshacer de un clic restaura el estado previo desde el snapshot de auditoría que la aplicación escribió. Es un solo paso — el deshacer no está disponible una vez que una aplicación posterior (o una edición manual de política) ha superado ese snapshot. Ve Modos de aplicación.
No por preset. El preset SSRF de la autonomía tight deniega los nombres de herramienta con forma de fetch comunes (http_fetch, web_search, fetch_url, request). Para denegar por destino — rangos RFC-1918, IPs de metadatos de nube, CIDRs específicos — autora tu propia regla de denegación host/CIDR en la superficie egress. Ningún preset trae reglas CIDR por ti. Ve Egress y exfiltración de datos.
Activa el modo shadow (por política): la política evalúa y registra pero degrada cada veredicto de aplicación a audit, prefijando la razón [shadow] would …. Observa las vistas de Events y Runs, luego apaga shadow para aplicar. El modo observe a nivel de espacio de trabajo (firewall_observe_mode) es el dial de descubrimiento complementario — registra las llamadas no cubiertas como huecos en Discovered Tools.
Un veredicto pending_approval devuelve 400 firewall_approval_pending con un id de aprobación. Un revisor la resuelve desde la consola (Developer+) o vía un callback de webhook HMAC (POST /api/v1/firewall/approvals/:id/callback). El agente hace polling de GET /api/v1/firewall/approvals/:id y reenvía la llamada original con una cabecera de un solo uso X-OrcaRouter-Firewall-Approval. Ve Llamadas a herramienta peligrosas.
Picos de tasa/coste puntuados contra una línea base de hora-de-la-semana aprendida (14 días), más retry_loop y novel_path (una transición de herramienta a herramienta nunca vista antes). El feed es legible por Member; pospón una anomalía hasta 7 días. Ve Exceso de agencia.

4. MCP, claves y acceso al gateway

Registra un servidor (name, endpoint, auth_mode de none/bearer/oauth/basic, credenciales cifradas) y el gateway MCP evalúa cada tools/call en la superficie mcp antes del despacho. La salud se rastrea (ok/degraded/down); pruébala con POST /api/workspace/firewall/mcp_servers/:id/probe. Una prueba también establece la línea base del esquema de herramientas anunciado del servidor — una deriva posterior cambia su estado de esquema de verified a changed (la señal de “rug-pull”), y o bien re-estableces la línea base (aprobar) o pones en quarantine el servidor. Así que el gobierno es evaluación por llamada más rastreo de integridad de esquema y bandas de riesgo de skill. Ve Firewall MCP y Envenenamiento de herramientas MCP.
Cada skill se escanea en una banda de riesgo con un modo de aplicación de allow / quarantine / block. Una skill en cuarentena se retiene para aprobación; las skills autodetectadas permanecen en cuarentena hasta que un humano las revisa. El modo cabalga encima del veredicto de la regla.
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = ilimitado), expired_time (-1 = nunca), environment, guardrail_id, firewall_policy_id y is_firewall_gateway. Combínalos para mínima agencia — ve Alcance, claves y políticas. Las claves se enmascaran al mostrarse.
Esas rutas del gateway (POST /evaluate, POST /evaluate_plan, ANY /mcp) requieren una clave con is_firewall_gateway=true — un token dedicado con alcance de gateway de firewall, no tu clave de relay sk-orca-…. Acuñar uno y leer su texto plano es Admin+.
La configuración se ejecuta en la consola — guardrails, políticas de firewall, servidores MCP y compliance se gestionan bajo tu token de sesión/acceso (UserAuth), y cada escritura está gobernada por rol (Developer+ para escrituras de política y guardrail). Solo tu tráfico de relay /v1/* usa una clave sk-orca-…; solo los hooks del gateway /api/v1/firewall/* usan el token con alcance de gateway de firewall.

5. Compliance, residencia y datos

El catálogo incluye SOC 2, HIPAA, GDPR, UK GDPR, la EU AI Act, ISO 27001, ISO 42001, el NIST AI RMF, PCI DSS, CCPA, GLBA, el OWASP Top 10 para Aplicaciones LLM (como un mapeo de controles), más perfiles regionales (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, las APPs de Australia, la PDPA de Singapur, DORA y varias leyes estatales de EE. UU.). Explora el catálogo, los packs y la preparación — todo Member, gratis — en /api/compliance/*.
Explorar es gratis; instalar un pack, generar un reporte, ponerlo en vivo y establecer la residencia requieren Admin del espacio de trabajo y un plan de pago (gobernado en el servidor). Instalar un pack (POST /api/compliance/packs/:key/install) materializa guardrails + políticas de firewall reales que luego puedes editar.
Sí. Un reporte está firmado con Ed25519 + SHA-256 y es verificable públicamente: obtén la clave pública (GET /api/public/compliance/pubkey), verifica un reporte (POST /api/public/compliance/verify), o entrega a un auditor un enlace de compartir (GET /api/public/compliance/share/:token). Las exportaciones son CSV / JSON / PDF.
Es la región del artefacto de reporte de compliance (us, eu, uk, ap, cn, global), establecible vía PUT /api/compliance/residency (Admin); una lectura entre regiones se retiene. No es geo-fijación de tus datos de inferencia. Ve Responsabilidad compartida.
La retención de logs de solicitud tiene un valor por defecto de 30 días y está recortada en el servidor a un máximo duro de 180 días. Una eliminación de cuenta se retiene durante una ventana de gracia (por defecto 30 días) antes de que se ejecute una depuración de PII irreversible; esa depuración purga en cascada los payloads de logs de solicitud de Mongo, las coincidencias de guardrail y los eventos de firewall atribuidos a ti. Archivar un espacio de trabajo purga en cascada las mismas tres colecciones para ese espacio de trabajo. Ve Exposición de PII.
Un 400 de un control de seguridad no es un bug en tu prompt. Es una política haciendo su trabajo. No reintentes — estos códigos son skip-retry. Rastrea la regla, luego decide si arreglar la llamada o relajar la política: ¿Por qué se bloqueó?.

6. ¿Aún atascado?

Códigos de error

Cada bloqueo, retención y rechazo que el gateway puede devolver.

¿Por qué se bloqueó?

Lee el código, abre el feed correcto, encuentra la regla exacta.

API de Guardrail

Rutas, roles y payloads para políticas de contenido.

API de Firewall

Rutas de consola y gateway para el gobierno de acciones.

API de Compliance

Endpoints de catálogo, instalación, reporte y residencia.

Glosario

Cada término usado a lo largo de los docs de Zero-Trust.
Para las amenazas que estos controles detienen, empieza en el modelo de amenazas. Para una línea base limpia, sigue Línea base de Agentes Seguros.