DROP sur une table de grand livre, des numéros de carte
fuitant dans un prompt — se mesure en dollars et en constatations d’audit.
Cette recette assemble les contrôles qui rendent un tel agent sûr à
exécuter : l’autonomie tight comme plancher, l’approbation humaine
sur les outils qui déplacent de l’argent, un plafond de coût par
exécution comme disjoncteur, et un pack de conformité SOC 2 / PCI
installable qui matérialise la politique et la preuve signée qu’un
auditeur demandera.
Tout ici est configuré dans la console (Firewall → Posture / Politiques,
Guardrails, Conformité). Ces routes de gestion utilisent votre session de
console, pas une clé de relais — seuls les appels
/v1/* que votre agent
effectue portent une clé sk-orca-…. Les éditions de politique nécessitent
le rôle Developer ; l’installation de conformité / le go-live / la
résidence nécessitent Admin de l’espace de travail et un plan
payant.1. Pourquoi un agent IA finance sécurisé a besoin de plus que des guardrails
Le dépistage de contenu attrape un numéro de carte dans un prompt. Il n’empêche pas l’agent d’appelerrefund.issue dix mille fois,
d’atteindre un hôte interne 10.x, ou d’exécuter une migration
destructrice. Une posture de qualité finance doit gouverner les deux plans à
la fois :
Le plan texte
Les Guardrails filtrent le texte de requête et
de réponse — PII masquée, secrets bloqués, avant que le modèle ne les
voie jamais.
Le plan action
Le Firewall gouverne chaque appel d’outil,
dispatch MCP, et requête sortante — allow, audit, deny, sanitize, hold,
ou cap cost.
2. Plancher : appliquez l’autonomie tight
Partez de la posture à un seul interrupteur la plus forte. Dans Firewall → Posture, appliquez le niveau d’autonomietight (rôle Developer). En une seule transaction, il définit les
deux plans :
| Plan | Ce que tight matérialise |
|---|---|
| Firewall | Deny par défaut ; refuse le shell destructeur ; refuse l’egress SSRF (noms d’outils de forme « fetch ») |
| Guardrails | PII Shield + Secrets Blocker appliqués sur les requêtes |
autonomy_* éditables — c’est une graine, pas une boîte
noire. Il dispose d’une annulation en un clic à partir d’un snapshot
d’audit.
3. Approbations : mettez les outils qui déplacent de l’argent en attente d’un humain (HITL)
Le deny par défaut arrête ce que vous n’avez pas autorisé. Les outils que vous autorisez bel et bien mais qui déplacent de l’argent —refund.issue, payment.send, ledger.adjust — ne devraient être ni
auto-autorisés ni auto-refusés. Donnez-leur le verdict pending_approval
afin qu’un humain donne son aval hors-bande.
Dans Firewall → Policies, ajoutez une règle au-dessus de votre défaut :
- Glob d’outil :
refund.*(oupayment.send,ledger.adjust, …) - Verdict :
pending_approval
- L’appel mis en attente renvoie une HTTP 400
firewall_approval_pendingavec un id d’approbation ; l’appel n’atteint pas l’outil. - Un relecteur le résout — depuis la console (Developer+), ou via un
callback webhook signé HMAC vers votre propre système d’approbation à
POST /api/v1/firewall/approvals/:id/callback. - L’agent interroge
GET /api/v1/firewall/approvals/:id, puis re-soumet l’appel d’origine avec un en-têteX-OrcaRouter-Firewall-Approvalà usage unique — la passerelle le laisse passer cette fois-là.
4. Disjoncteur : plafonnez le coût d’une exécution
Un agent finance bloqué dans une boucle de retry est à la fois un bug de correction et un bug de facturation. Une règlecap_cost est le
coupe-circuit de boucle emballée : elle refuse un appel d’outil une fois que
la dépense accumulée de l’exécution de l’agent franchit un plafond en
centimes par règle.
Ajoutez une règle avec le verdict cap_cost et un plafond cap_cost_cents
— par ex. 2000 (USD 20,00 $) — scopée aux outils de votre agent. Une fois
que la dépense courante d’une exécution dépasse le plafond, les appels
ultérieurs de cette exécution sont refusés ; une nouvelle exécution démarre
proprement.
cap_cost plafonne la dépense de l’exécution de l’agent, pas le budget
à vie d’une seule clé. Pour un plafond strict sur une clé, définissez
credit_limit_usd sur la clé API elle-même (0 = illimité) — les deux se
composent : le budget de la clé borne la dépense totale, cap_cost borne
toute exécution unique.5. Ceinture et bretelles sur le plan texte
tight applique déjà PII Shield et Secrets Blocker. Pour un agent finance,
appuyez-vous sur les spécificités :
Bloquer les numéros de carte et les secrets des requêtes
Bloquer les numéros de carte et les secrets des requêtes
Le guardrail Secrets Blocker attrape les clés API et identifiants
dans le prompt avant que le modèle ne les voie. Pour les données de
carte, une règle
pii avec credit_card réglé sur l’action block
(via entity_actions par entité) rejette la requête purement et
simplement avec une HTTP 400 guardrail_blocked — et un block ne coûte
aucun quota (les blocks d’input se déclenchent avant le metering). Voir
Guardrails §5.Masquer la PII à l'entrée
Masquer la PII à l'entrée
Le preset PII Shield est une seule règle
pii, mask, stage
both. Le masquage au stade input est actif : un iban ou un ssn
dans la requête est rendu comme [IBAN] / [SSN] avant que le modèle ne
soit appelé. (Le masquage en direct output/streaming est sur la feuille
de route ; le block de sortie est appliqué en streaming et
non-streaming aujourd’hui.)Assainir les args, ne jamais faire confiance aux résultats
Assainir les args, ne jamais faire confiance aux résultats
Un verdict
sanitize du Firewall redacte les sous-chaînes
correspondantes des arguments d’un appel d’outil avant de
transmettre — il ne réécrit jamais ce qu’un outil renvoie. Pour garder
un secret entièrement hors d’une requête, c’est le travail du guardrail
Secrets Blocker sur le plan texte.6. Le pack de conformité : SOC 2 et PCI en une seule installation
Les contrôles ci-dessus sont l’implémentation. Un auditeur veut la preuve. Le plan Conformité ferme cette boucle : parcourez le catalogue de frameworks (gratuit, tout Member), puis installez un pack en tant qu’Admin de l’espace de travail sur un plan payant. Installer un pack matérialise des guardrails et politiques firewall qui correspondent aux contrôles du framework — de sorte que la même installation qui vous donne l’artefact d’audit met aussi en place une application réelle.soc2
(AICPA SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0),
glba (Gramm-Leach-Bliley), et dora_eu (Digital Operational
Resilience Act) — aux côtés des frameworks de confidentialité (gdpr,
uk_gdpr, ccpa), des frameworks de sécurité/IA (iso_27001, iso_42001,
nist_ai_rmf, eu_ai_act, nist_800_53), et du pack owasp_llm
(OWASP Top 10 for LLM Applications). Parcourez le catalogue en direct pour
le jeu complet.
Le rapport qu’un auditeur peut vérifier
| Quoi | Détail |
|---|---|
| Signature | Ed25519 sur un hash de preuve SHA-256 — inviolable |
| Formats | CSV / JSON / PDF |
| Vérifier | Public — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify |
| Partager | Un lien auditeur en lecture seule : GET /api/public/compliance/share/:token |
Le plan gratuit inclut un rapport ; l’export CSV/JSON et les rapports
supplémentaires sont payants. Générer un rapport et passer en direct sont
soumis côté serveur aux plans payants — le catalogue et les vues d’état de
préparation restent gratuits.
7. Résidence des données, rétention et effacement
Une posture de qualité finance doit répondre à « où est la preuve, et combien de temps gardez-vous les journaux ».- La résidence est la région de l’artefact de rapport de conformité
—
us,eu,uk,ap,cn, ouglobal, définie viaPUT /api/compliance/residency(Admin). Les lectures inter-régions sont refusées. (Cela épingle l’artefact, pas l’endroit où l’inférence s’exécute.) - Rétention — les journaux de requêtes valent 30 jours par défaut et sont bornés côté serveur à un max strict de 180 jours.
- Effacement — une suppression de compte en libre-service entre dans une fenêtre de grâce de 30 jours, puis un nettoyage PII irréversible se propage en cascade à travers les matches de guardrail, les journaux de requêtes, et les événements firewall.
8. Vérifiez avant d’en dépendre
Ne déployez pas une politique finance sur la foi. Les deux plans ont une sandbox qui ne persiste rien et ne dispatche rien :- Guardrails → Test — collez un échantillon, choisissez un stage, voyez le verdict et le texte rendu (masqué).
- Firewall → Test (Developer+) — exécutez en dry-run un appel d’outil d’échantillon et voyez le verdict, la règle correspondante et la raison.
retry_loop, et les chemins d’outils jamais vus auparavant —
exactement les signaux qui précèdent un incident financier.
Récapitulatif
Référentiel Secure Agents
Ce que
tight matérialise, et comment simuler avant d’appliquer.Règles du firewall
Prédicats d’arguments, plafonds de coût, egress, et séquences en
profondeur.
Preuve SOC 2
Transformez les contrôles matérialisés en un artefact d’audit signé.
Journalisation sans PII
Gardez les données de carte et de compte hors de vos journaux de
requêtes.
Modes d'application
Observe → shadow → enforce, le déploiement sûr pour les outils qui
déplacent de l’argent.
Appels d'outils dangereux
La menace contre laquelle l’allow-list d’outils d’un agent finance se
défend.
