Tout ici est à portée d’espace de travail. Les membres voient la piste de leur
espace de travail ; rien ne traverse les frontières de tenant. La piste est
produite par des fonctionnalités que vous configurez déjà —
Guardrails et le
Firewall — de sorte qu’activer l’application active la
forensique en même temps.
1. Les quatre enregistrements derrière une piste d’audit d’agent ia
L’attribution vient de quatre flux indépendants, chacun corrélé à la même exécution et session de sorte que vous puissiez pivoter entre eux :Matches de guardrail
Chaque règle de contenu qui s’est déclenchée sur une requête ou une réponse
— type de règle, action, surface, et une chaîne de détail. Lisible par les
Members.
Events & Runs de firewall
Chaque verdict d’appel d’outil —
allow, audit, deny, sanitize,
pending_approval (mise en attente d’approbation), et le verdict résolu
d’une règle cap_cost — condensé par exécution et session d’agent.
Developer+.Décisions d'approbation
Qui a approuvé ou rejeté chaque appel d’outil mis en attente, enregistré
comme une action d’audit.
Historique des changements de politique
Chaque édition de guardrail et de firewall — versionnée, diffable,
réversible — plus une ligne d’audit d’espace de travail par changement.
2. Matches de guardrail — ce qui a été filtré (Member)
Chaque fois qu’une règle de guardrail se déclenche, la passerelle écrit une correspondance. Le flux vit sur la page Guardrails (onglet Matches) et est lisible par tout membre d’espace de travail. Chaque correspondance enregistre le type de règle, l’action prise (block / mask / flag / annotate / spotlight), la surface
(input / output), une chaîne de détail, et la lignée d’exécution
de la requête qui l’a déclenchée. Listez-la, groupez-la par guardrail ou type
de règle, filtrez par action, plongez dans une correspondance, ou exportez le
flux en CSV.
Une règle bruyante fait partie de la piste aussi. Marquez une correspondance
comme un faux positif avec POST /api/guardrail/match/:id/mark-fp (Admin) de
sorte que votre signal reste propre et que vos rapports ne sur-comptent pas.
3. Events & Runs de firewall — ce que l’agent a fait (Developer+)
Là où les Matches couvrent le texte, les Events de firewall couvrent les actions. Chaque évaluation d’appel d’outil est journalisée avec son verdict, sa surface, son nom d’outil, et — de manière critique — l’exécution et la session d’agent auxquelles il appartient. Les lectures sur Events, le rollup Runs/sessions, et la trace par exécution requièrent Developer+ ; les flux plus légers Discovered-tools et anomalies sont ouverts à tout Member. La vue Runs & sessions est la bête de somme forensique : elle condense les événements par exécution d’agent en une répartition des verdicts, les outils et modèles distincts que l’exécution a touchés, et les timestamps de première/dernière apparition — la réponse « qu’a réellement fait cet agent » en un seul écran. Au-delà des verdicts statiques, le flux anomalie signale les écarts par rapport à la baseline heure-de-la-semaine apprise de chaque espace de travail (une moyenne glissante sur 14 jours) — pics de débit et de coût,retry_loop, et transitions novel_path — de sorte qu’un motif
autorisé-mais-anormal fasse tout de même surface dans l’enregistrement.
4. Décisions d’approbation — qui a dit oui (action d’audit)
Quand une règle se résout enpending_approval, l’appel mis en attente devient
une revue hors-bande (voir le flux HITL
du Firewall). La décision fait partie de la piste : approuver ou rejeter
écrit une ligne d’audit d’espace de travail — firewall_approval_approve ou
firewall_approval_reject — nommant l’acteur. Les décisions sont
first-writer-wins et idempotentes, et si la règle sous-jacente a changé après
la mise en attente, l’enrichissement note que le contexte a changé.
Ainsi un appel d’outil mis en attente puis approuvé est entièrement
attribuable de bout en bout : l’événement firewall montre la mise en attente,
la ligne d’audit montre qui l’a relâché, et les deux corrèlent à la même
exécution.
5. Audit des changements de politique — qui a changé les règles
Une piste de comportement d’agent n’est digne de confiance que si vous pouvez aussi prouver quelle était la politique à l’époque — et qui l’a changée. Les Guardrails gardent un historique de versions complet. Chaque création, mise à jour, et suppression écrit une ligne d’historique versionnée dans la même transaction que le changement. Ouvrez History sur un guardrail pour voir chaque version avec auteur et timestamp, diff entre deux, et revert vers une plus ancienne (le revert est enregistré comme une nouvelle version — l’historique n’est jamais muté). Les changements de politique, de règle, et de réglages du Firewall écrivent chacun une ligne d’audit d’espace de travail après le commit du changement —firewall_policy_update, firewall_rule_create,
firewall_settings_update, et ainsi de suite — et les changements de niveau
d’autonomie (firewall_autonomy_applied / firewall_autonomy_undone)
capturent le snapshot de l’état antérieur qui alimente l’annulation en un clic.
Les secrets et les blobs de règles ne sont jamais journalisés.
6. Un exemple travaillé : tracer une exécution suspecte
Supposez qu’une exécution soit signalée pour un appel sortant inattendu. Depuis la console, avec une session Developer+ :Ouvrez l'exécution dans Firewall → Runs
Trouvez l’exécution par son id. Le rollup montre chaque outil qu’elle a
appelé et le verdict sur chacun — y compris le
deny sur l’outil en forme
de fetch qui l’a signalée.Pivotez vers les événements
Plongez dans l’événement refusé. Il porte le nom de l’outil, la règle et la
raison correspondantes, la surface, et la lignée d’exécution/session — la
même lignée que vous utiliserez pour aligner le côté guardrail.
Vérifiez ce qui a été filtré sur la même exécution
Ouvrez Guardrails → Matches et filtrez sur cette exécution. Si une
règle Secrets Blocker ou PII s’est déclenchée sur le prompt, vous savez
maintenant que l’agent s’est vu remettre du matériel sensible avant
d’essayer de l’exfiltrer.
7. Rapports de conformité signés — une piste qu’un auditeur peut vérifier
Pour une preuve externe, la surface Conformité transforme cette piste en un seul artefact. Parcourir le catalogue de frameworks, les packs, et la préparation est ouvert à tout Member et gratuit ; installer un pack, générer un rapport, passer en production, et définir la résidence des données sont des actions d’Admin d’espace de travail sur un plan payant (server-gated). Un rapport de conformité est signé Ed25519 avec un hash de contenu SHA256 et est publiquement vérifiable — le destinataire le vérifie sans compte OrcaRouter :| Endpoint | Objectif |
|---|---|
GET /api/public/compliance/pubkey | La clé publique contre laquelle vérifier. |
POST /api/public/compliance/verify | Vérifier la signature + le hash d’un rapport. |
GET /api/public/compliance/share/:token | Un lien de partage auditeur vers un rapport. |
soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss,
l’EU AI Act (eu_ai_act), et l’OWASP Top 10 for LLM Applications
(owasp_llm), entre autres — installer un pack matérialise les guardrails et
politiques firewall correspondants de sorte que les contrôles sur lesquels
vous rapportez soient les contrôles réellement appliqués.
La résidence des données ici est la région de l’artefact de rapport
(
us / eu / uk / ap / cn / global), définissable via
PUT /api/compliance/residency (Admin) ; les lectures inter-régions sont
retenues. Elle gouverne où vit l’artefact de preuve — ce n’est pas un
geo-épinglage de votre trafic d’inférence.8. Rétention et le droit à l’effacement
Un enregistrement forensique est borné, pas éternel. Les journaux de requêtes ont par défaut 30 jours de rétention et sont serrés côté serveur à un maximum dur de 180 jours. Quand un utilisateur se supprime lui-même, une fenêtre de grâce de 30 jours s’applique, après quoi sa PII est nettoyée et la cascade purge ses correspondances de guardrail, ses journaux de requêtes, et ses événements firewall — satisfaisant les obligations de droit à l’effacement / DSAR tout en gardant l’historique d’audit agrégé intact.9. Où aller ensuite
Référence des Guardrails
Matches, journalisation de contenu brut, historique de versions, et
l’ensemble de règles complet.
Référence du Firewall
Events, Runs, anomalies, approbations, et le journal d’audit.
Agence excessive
Contraindre ce qu’un agent est autorisé à faire avant qu’il n’agisse.
Modes d'application
Audit, shadow, et observe — comment construire une piste avant d’appliquer.
