1. faq de seguridad de agentes de ia — empieza aquí
Un mapa de 30 segundos de qué control responde qué pregunta:| Estás preguntando sobre… | El plano | Lee |
|---|---|---|
| Texto en prompts o respuestas (PII, secretos, jailbreaks) | Guardrails | Guardrails |
| Llamadas a herramienta, MCP, egress, skills | Firewall | Firewall |
Cuál se disparó en un 400 | Cualquiera | ¿Por qué se bloqueó? |
2. Guardrails — examen de contenido
¿Qué pasa si ningún guardrail resuelve en una solicitud?
¿Qué pasa si ningún guardrail resuelve en una solicitud?
guardrail_id explícito en la clave (si existe y está
habilitado) → en caso contrario el guardrail is_default del espacio de trabajo → en
caso contrario sin aplicación. Un adjunto explícito deshabilitado es el interruptor
de apagado — no hace fallback al valor por defecto. Sin nada resuelto, la solicitud
es idéntica byte a byte a un espacio de trabajo que nunca habilitó la función.¿Una solicitud bloqueada me cuesta cuota?
¿Una solicitud bloqueada me cuesta cuota?
block devuelve 400 guardrail_blocked y no cuesta cuota — un bloqueo
en etapa de entrada se dispara antes del medido; un bloqueo en etapa de salida
reembolsa la cuota preconsumida. También está marcado skip-retry: reejecutar el
prompt idéntico simplemente vuelve a bloquear.¿Qué tipos de regla y acciones hay?
¿Qué tipos de regla y acciones hay?
keyword, regex, pii, max_chars, external, llm_judge,
grounding. Acciones: block (rechazar), mask (redactar y reenviar), flag (solo
registrar, sin cambio de tráfico). Etapas: input, output, both. Ve
Guardrails para cada uno.¿Qué entidades PII se detectan, y cómo se ve un mask?
¿Qué entidades PII se detectan, y cómo se ve un mask?
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address,
más tipos regionales (jp_mynumber, kr_rrn, cn_resident_id). Una acción mask
renderiza una etiqueta tipada — jane@acme.com → [EMAIL], un SSN → [SSN]. Puedes
superponer hasta 25 entidades regex personalizadas por regla (con un checksum Luhn
opcional) y anular la acción por entidad vía entity_actions.¿El enmascarado de salida se aplica en respuestas en streaming?
¿El enmascarado de salida se aplica en respuestas en streaming?
¿Cuánto cuesta el juez LLM?
¿Cuánto cuesta el juez LLM?
keyword / regex / pii / max_chars no hacen llamada a modelo y no
facturan nada. Una regla llm_judge ejecuta una verificación semántica a través de un
modelo del espacio de trabajo (acotada por judge_timeout_ms, fail-open por
defecto) y se factura como una sub-línea de juez separada. Una regla grounding
puntúa la fidelidad de la respuesta contra las fuentes recuperadas de la solicitud
(umbral por defecto 0.7) de la misma forma.¿Puedo ver qué coincidió realmente una regla?
¿Puedo ver qué coincidió realmente una regla?
GET /api/guardrail/match, Member). Cada fila registra el
tipo de regla, la acción, la etapa y una cadena de detalle — y la subcadena
coincidente solo si “Log raw content” está activado para ese guardrail (apagado por
defecto, la postura conservadora con la privacidad). ¿Bloqueo incorrecto? Márcalo como
falso positivo (POST /api/guardrail/match/:id/mark-fp, Admin).¿Escaneáis dependencias en busca de CVEs conocidos?
¿Escaneáis dependencias en busca de CVEs conocidos?
block / mask / flag que autoras directamente. Conecta un escáner
bajo Integraciones para impulsarlo.3. Firewall — acciones del agente
¿En qué difiere el firewall de los guardrails en la resolución?
¿En qué difiere el firewall de los guardrails en la resolución?
firewall_policy_id / guardrail_id) y comparten el fallback al valor por defecto del
espacio de trabajo. Ve
Guardrails vs Firewall.¿Cuáles son los veredictos y superficies?
¿Cuáles son los veredictos y superficies?
allow, audit, deny, sanitize, pending_approval, cap_cost.
default_verdict es allow / audit / deny (audit por defecto). Superficies:
inbound (herramientas anunciadas), response (tool_calls emitidos por el modelo),
mcp (un tools/call), egress (host/IP/CIDR saliente). El
glosario de veredictos decodifica cada uno.¿`sanitize` limpia lo que una herramienta devuelve?
¿`sanitize` limpia lo que una herramienta devuelve?
sanitize redacta las subcadenas
coincidentes de los argumentos de la llamada a herramienta solamente, nunca el
contenido que una herramienta devuelve. En la superficie inbound (aún sin args en
tiempo de llamada) sanitize escala a un deny.¿Qué hacen los niveles de autonomía?
¿Qué hacen los niveles de autonomía?
autonomy_* reales y
editables:•
balanced (inicio recomendado) — audit por defecto, deny del shell
destructivo, PII Shield en solo-audit (marca PII).•
tight — default-deny, deny del shell destructivo, deny de las herramientas de
fetch con forma de SSRF, PII Shield + Secrets Blocker aplicados.•
permissive — solo observe.El deshacer de un clic restaura el estado previo desde el snapshot de auditoría que la aplicación escribió. Es un solo paso — el deshacer no está disponible una vez que una aplicación posterior (o una edición manual de política) ha superado ese snapshot. Ve Modos de aplicación.
¿El preset SSRF bloquea IPs privadas y metadatos de nube?
¿El preset SSRF bloquea IPs privadas y metadatos de nube?
tight deniega los nombres de
herramienta con forma de fetch comunes (http_fetch, web_search, fetch_url,
request). Para denegar por destino — rangos RFC-1918, IPs de metadatos de nube, CIDRs
específicos — autora tu propia regla de denegación host/CIDR en la superficie egress.
Ningún preset trae reglas CIDR por ti. Ve
Egress y exfiltración de datos.¿Cómo lanzo una política sin romper el tráfico?
¿Cómo lanzo una política sin romper el tráfico?
audit, prefijando la razón [shadow] would …. Observa
las vistas de Events y Runs, luego apaga shadow para aplicar. El modo
observe a nivel de espacio de trabajo (firewall_observe_mode) es el dial de
descubrimiento complementario — registra las llamadas no cubiertas como huecos en
Discovered Tools.¿Cómo funciona la aprobación humana (HITL)?
¿Cómo funciona la aprobación humana (HITL)?
pending_approval devuelve 400 firewall_approval_pending con un id de
aprobación. Un revisor la resuelve desde la consola (Developer+) o vía un callback
de webhook HMAC (POST /api/v1/firewall/approvals/:id/callback). El agente hace polling
de GET /api/v1/firewall/approvals/:id y reenvía la llamada original con una cabecera
de un solo uso X-OrcaRouter-Firewall-Approval. Ve
Llamadas a herramienta peligrosas.¿Qué busca la detección de anomalías?
¿Qué busca la detección de anomalías?
retry_loop y novel_path (una transición de herramienta a herramienta
nunca vista antes). El feed es legible por Member; pospón una anomalía hasta 7 días. Ve
Exceso de agencia.4. MCP, claves y acceso al gateway
¿Cómo se gobiernan los servidores MCP?
¿Cómo se gobiernan los servidores MCP?
name, endpoint, auth_mode de
none/bearer/oauth/basic, credenciales cifradas) y el gateway MCP evalúa cada
tools/call en la superficie mcp antes del despacho. La salud se rastrea
(ok/degraded/down); pruébala con
POST /api/workspace/firewall/mcp_servers/:id/probe. Una prueba también establece la
línea base del esquema de herramientas anunciado del servidor — una deriva posterior
cambia su estado de esquema de verified a changed (la señal de “rug-pull”), y o bien
re-estableces la línea base (aprobar) o pones en quarantine el servidor. Así que el
gobierno es evaluación por llamada más rastreo de integridad de esquema y bandas de
riesgo de skill. Ve Firewall MCP y
Envenenamiento de herramientas MCP.¿Qué le pasa a una skill arriesgada o autodetectada?
¿Qué le pasa a una skill arriesgada o autodetectada?
allow / quarantine / block. Una skill en cuarentena se
retiene para aprobación; las skills autodetectadas permanecen en cuarentena hasta que un
humano las revisa. El modo cabalga encima del veredicto de la regla.¿Qué campos de clave aseguran un agente?
¿Qué campos de clave aseguran un agente?
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd
(0 = ilimitado), expired_time (-1 = nunca), environment, guardrail_id,
firewall_policy_id y is_firewall_gateway. Combínalos para mínima agencia — ve
Alcance, claves y políticas.
Las claves se enmascaran al mostrarse.¿Por qué obtengo 403 en `/api/v1/firewall/*`?
¿Por qué obtengo 403 en `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan, ANY /mcp) requieren
una clave con is_firewall_gateway=true — un token dedicado con alcance de gateway de
firewall, no tu clave de relay sk-orca-…. Acuñar uno y leer su texto plano es
Admin+.¿Cuál es la diferencia entre configurar y llamar?
¿Cuál es la diferencia entre configurar y llamar?
/v1/* usa una clave sk-orca-…; solo los hooks
del gateway /api/v1/firewall/* usan el token con alcance de gateway de firewall.5. Compliance, residencia y datos
¿Qué frameworks se cubren?
¿Qué frameworks se cubren?
/api/compliance/*.¿Por qué están gobernados install/report?
¿Por qué están gobernados install/report?
POST /api/compliance/packs/:key/install) materializa
guardrails + políticas de firewall reales que luego puedes editar.¿Los reportes de compliance son verificables?
¿Los reportes de compliance son verificables?
GET /api/public/compliance/pubkey), verifica un reporte
(POST /api/public/compliance/verify), o entrega a un auditor un enlace de compartir
(GET /api/public/compliance/share/:token). Las exportaciones son CSV / JSON / PDF.¿Qué fija realmente la residencia de datos?
¿Qué fija realmente la residencia de datos?
us, eu, uk, ap, cn,
global), establecible vía PUT /api/compliance/residency (Admin); una lectura entre
regiones se retiene. No es geo-fijación de tus datos de inferencia. Ve
Responsabilidad compartida.¿Cuánto se conservan los logs, y cómo borro datos?
¿Cuánto se conservan los logs, y cómo borro datos?
