DROP en una tabla de
libro mayor, números de tarjeta filtrándose a un prompt — se mide en dólares y
hallazgos de auditoría. Esta receta ensambla los controles que hacen seguro
ejecutar tal agente: autonomía tight como suelo, aprobación humana en
las herramientas que mueven dinero, un tope de coste por ejecución como
interruptor de circuito, y un pack de cumplimiento SOC 2 / PCI instalable
que materializa la política y la evidencia firmada que un auditor pedirá.
Todo aquí se configura en la consola (Firewall → Posture / Policies,
Guardrails, Compliance). Esas rutas de gestión usan tu sesión de consola, no
una clave de relay — solo las llamadas
/v1/* que hace tu agente llevan una
clave sk-orca-…. Las ediciones de política requieren el rol Developer;
la instalación de cumplimiento / go-live / residencia requieren Admin del
espacio de trabajo y un plan de pago.1. Por qué un agente de IA financiero seguro necesita más que guardrails
El cribado de contenido captura un número de tarjeta en un prompt. No detiene al agente de llamar arefund.issue diez mil veces, alcanzar un host
interno 10.x, o ejecutar una migración destructiva. Una postura de grado
financiero tiene que gobernar ambos planos a la vez:
El plano de texto
Los Guardrails criban el texto de solicitud y
respuesta — PII enmascarada, secretos bloqueados, antes de que el modelo
los vea siquiera.
El plano de acción
El Firewall gobierna cada llamada a herramienta,
despacho MCP y solicitud saliente — allow, audit, deny, sanitize, retener
o limitar coste.
2. Suelo: aplica autonomía tight
Empieza desde la postura de un solo interruptor más fuerte. En Firewall → Posture, aplica el nivel de autonomíatight (rol Developer). En una sola transacción establece ambos
planos:
| Plano | Qué materializa tight |
|---|---|
| Firewall | Default-deny; deniega shell destructivo; deniega egress SSRF (nombres de herramienta con forma de fetch) |
| Guardrails | PII Shield + Secrets Blocker aplicados en las solicitudes |
autonomy_*
reales y editables — es una semilla, no una caja negra. Tiene deshacer de
un clic desde un snapshot de auditoría.
3. Aprobaciones: retén las herramientas que mueven dinero para un humano (HITL)
El default-deny detiene lo que no permitiste. Las herramientas que sí permites pero que mueven dinero —refund.issue, payment.send,
ledger.adjust — no deberían ser ni auto-permitidas ni auto-denegadas. Dales
el veredicto pending_approval para que un humano lo apruebe fuera de banda.
En Firewall → Policies, añade una regla por encima de tu valor por
defecto:
- Glob de herramienta:
refund.*(opayment.send,ledger.adjust, …) - Veredicto:
pending_approval
- La llamada retenida devuelve HTTP 400
firewall_approval_pendingcon un id de aprobación; la llamada no alcanza la herramienta. - Un revisor la resuelve — desde la consola (Developer+), o vía un
callback de webhook firmado con HMAC a tu propio sistema de aprobación
en
POST /api/v1/firewall/approvals/:id/callback. - El agente hace polling de
GET /api/v1/firewall/approvals/:id, luego reenvía la llamada original con una cabeceraX-OrcaRouter-Firewall-Approvalde un solo uso — el gateway la deja pasar esa única vez.
4. Interruptor de circuito: limita el coste de una ejecución
Un agente financiero atascado en un bucle de reintento es tanto un bug de corrección como uno de facturación. Una reglacap_cost es el interruptor de
bucles descontrolados: deniega una llamada a herramienta una vez que el gasto
acumulado de la ejecución del agente cruza un tope de centavos por regla.
Añade una regla con veredicto cap_cost y un techo cap_cost_cents — p. ej.
2000 (USD $20.00) — con alcance a las herramientas de tu agente. Una vez que
el gasto en curso de una ejecución excede el tope, las llamadas posteriores en
esa ejecución se deniegan; una ejecución nueva empieza limpia.
cap_cost limita el gasto de la ejecución del agente, no el presupuesto de
por vida de una sola clave. Para un techo duro en una clave, establece
credit_limit_usd en la clave API misma (0 = ilimitado) — los dos se
componen: el presupuesto de la clave acota el gasto total, cap_cost acota
cualquier ejecución.5. Cinturón y tirantes en el plano de texto
tight ya aplica PII Shield y Secrets Blocker. Para un agente financiero,
apóyate en los detalles:
Bloquea números de tarjeta y secretos de las solicitudes
Bloquea números de tarjeta y secretos de las solicitudes
El guardrail Secrets Blocker captura claves API y credenciales en el
prompt antes de que el modelo las vea. Para datos de tarjeta, una regla
pii con credit_card establecido a la acción block (vía
entity_actions por entidad) rechaza la solicitud por completo con HTTP
400 guardrail_blocked — y un bloqueo no cuesta cuota (los bloqueos de
entrada se disparan antes de la medición). Ver
Guardrails §5.Enmascara PII a la entrada
Enmascara PII a la entrada
El preset PII Shield es una única regla
pii, mask, etapa both. El
enmascarado en la etapa de entrada está en vivo: un iban o ssn en la
solicitud se renderiza como [IBAN] / [SSN] antes de que el modelo sea
llamado. (El enmascarado de salida/streaming en vivo está en el roadmap;
el block de salida se aplica en streaming y no-streaming hoy.)Sanea argumentos, nunca confíes en resultados
Sanea argumentos, nunca confíes en resultados
Un veredicto
sanitize de Firewall redacta las subcadenas coincidentes de
los argumentos de una llamada a herramienta antes de reenviar — nunca
reescribe lo que una herramienta devuelve. Para mantener un secreto fuera
de una solicitud por completo, ese es el trabajo del guardrail Secrets
Blocker en el plano de texto.6. El pack de cumplimiento: SOC 2 y PCI en una instalación
Los controles de arriba son la implementación. Un auditor quiere la evidencia. El plano de Compliance cierra ese bucle: navega el catálogo de marcos (gratis, cualquier Member), luego instala un pack como Admin del espacio de trabajo en un plan de pago. Instalar un pack materializa guardrails y políticas de firewall que mapean a los controles del marco — así que la misma instalación que te da el artefacto de auditoría también levanta aplicación real.soc2
(AICPA SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0), glba
(Gramm-Leach-Bliley) y dora_eu (Digital Operational Resilience Act) —
junto a marcos de privacidad (gdpr, uk_gdpr, ccpa), marcos de
seguridad/IA (iso_27001, iso_42001, nist_ai_rmf, eu_ai_act,
nist_800_53) y el pack owasp_llm (OWASP Top 10 for LLM Applications).
Navega el catálogo en vivo para el conjunto completo.
El informe que un auditor puede verificar
| Qué | Detalle |
|---|---|
| Firma | Ed25519 sobre un hash de evidencia SHA-256 — a prueba de manipulación |
| Formatos | CSV / JSON / PDF |
| Verificar | Público — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify |
| Compartir | Un enlace de auditor de solo lectura: GET /api/public/compliance/share/:token |
El plan gratuito incluye un informe; la exportación CSV/JSON y los informes
adicionales son de pago. Generar un informe e ir en vivo están restringidos por
servidor a planes de pago — el catálogo y las vistas de disposición se
mantienen gratis.
7. Residencia de datos, retención y borrado
Una postura de grado financiero tiene que responder “dónde está la evidencia, y cuánto tiempo conservas los registros.”- La Residencia es la región del artefacto de informe de cumplimiento
—
us,eu,uk,ap,cnoglobal, establecida víaPUT /api/compliance/residency(Admin). Las lecturas inter-región se retienen. (Esto fija el artefacto, no dónde se ejecuta la inferencia.) - La Retención — los registros de solicitudes por defecto son 30 días y están acotados por el servidor a un máximo duro de 180 días.
- El Borrado — una eliminación de cuenta autoservicio entra en una ventana de gracia de 30 días, luego una limpieza de PII irreversible cae en cascada a través de las coincidencias de guardrail, los registros de solicitudes y los eventos de firewall.
8. Verifica antes de depender de ello
No lances una política financiera por fe. Ambos planos tienen un sandbox que no persiste nada y no despacha nada:- Guardrails → Test — pega una muestra, elige una etapa, ve el veredicto y el texto renderizado (enmascarado).
- Firewall → Test (Developer+) — ejecuta en seco una llamada a herramienta de muestra y ve el veredicto, la regla coincidente y la razón.
retry_loop
y rutas de herramienta nunca antes vistas — exactamente las señales que
preceden a un incidente financiero.
Resumen
Línea base de Agentes Seguros
Qué materializa
tight, y cómo simular antes de aplicar.Reglas del firewall
Predicados de argumentos, topes de coste, egress y secuencias en
profundidad.
Evidencia SOC 2
Convierte los controles materializados en un artefacto de auditoría
firmado.
Registro seguro de PII
Mantén los datos de tarjeta y cuenta fuera de tus registros de solicitudes.
Modos de aplicación
Observe → shadow → enforce, el lanzamiento seguro para herramientas que
mueven dinero.
Llamadas a herramientas peligrosas
La amenaza contra la que la lista de permitidos de herramientas de un
agente financiero defiende.
