1. 一份 ai agent audit trail 背后的四份记录
归因来自四条独立的流,每一条都关联到同一个运行和会话,因此 你可以在它们之间转换视角:防护栏 Matches
每一条在请求或响应上触发的内容规则——规则类型、动作、阶段,
以及一个详情字符串。Member 可读。
防火墙 Events 与 Runs
每一次工具调用判定——
allow、audit、deny、sanitize、
pending_approval(挂起待审批),以及一条 cap_cost 规则的
解析判定——按智能体运行和会话汇总。Developer+。审批决策
谁批准或拒绝了每一次被挂起的工具调用,作为一个审计动作记录。
策略变更历史
每一次防护栏和防火墙编辑——带版本、可 diff、可回退——外加
每次变更一行工作区审计行。
2. 防护栏 Matches——什么被筛查了(Member)
每一次一条防护栏规则触发,网关都会写一条匹配(match)。该 信息流位于 Guardrails 页面(Matches 标签),对任何工作区成员 可读。 每条匹配记录规则类型、所采取的动作(block / mask /
flag / annotate / spotlight)、阶段(input / output)、
一个详情(detail)字符串,以及触发它的请求的运行谱系。
列出它、按防护栏或规则类型分组、按动作过滤、钻入某一条匹配,
或把该信息流导出为 CSV。
一条嘈杂的规则也是追踪的一部分。用
POST /api/guardrail/match/:id/mark-fp(Admin)把一条匹配标记为
误报,这样你的信号保持干净,你的报告也不会过度计数。
3. 防火墙 Events 与 Runs——智能体做了什么(Developer+)
Matches 覆盖文本,而防火墙 Events 覆盖动作。每一次工具 调用评估都被记录,带它的判定、执行面、工具名,以及——至关重要的 ——它所属的智能体运行和会话。对 Events、Runs/sessions 汇总 和逐运行 trace 的读取需要 Developer+;较轻的 Discovered-tools 和异常信息流对每个 Member 开放。 Runs & sessions 视图是取证主力:它把事件按智能体运行汇总成 一份判定细分、该运行触及的不同工具和模型,以及首次/末次出现的 时间戳——一屏给出”这个智能体究竟做了什么”的答案。 在静态判定之外,异常信息流标记对每个工作区学习到的周内 小时基线(一个 14 天滚动平均)的偏离——速率和成本尖峰、retry_loop 和 novel_path 转移——因此一个被允许但反常的模式
仍会在记录中浮现。
4. 审批决策——谁说了 yes(审计动作)
当一条规则解析为pending_approval 时,被挂起的调用变成一次带外
审查(参见防火墙的 HITL 流程)。
那个决策是追踪的一部分:批准或拒绝会写一行工作区审计行——
firewall_approval_approve 或 firewall_approval_reject——点名行为
人。决策是首个写入者生效且幂等的,而且如果底层规则在挂起后
被改过,富化信息会注明上下文已发生变化。
于是一次先挂起后批准的工具调用端到端完全可归因:防火墙事件
显示这次挂起,审计行显示是谁释放了它,而两者都关联到同一次运行。
5. 策略变更审计——谁改了规则
一份智能体行为的追踪只有在你也能证明当时策略是什么——以及是 谁改了它——时才可信。 防护栏保留一份完整的版本历史。每一次创建、更新和删除都 在与变更同一个事务里写一行带版本的历史行。在一条防护栏上打开 History 即可看到每一个版本及其作者和时间戳,diff 任意两个, 并revert 到一个更旧的版本(revert 被记录为一个新版本——历史 从不被改动)。 防火墙的策略、规则和设置变更各自在变更提交后写一行工作区 审计行——firewall_policy_update、firewall_rule_create、
firewall_settings_update 等等——而自治级别变更
(firewall_autonomy_applied / firewall_autonomy_undone)会捕获
那个驱动一键撤销的前态快照。密钥和规则 blob 永不被记录。
6. 一个实战示例:追踪一次可疑运行
假设一次运行因一次意外的出站调用被标记。在控制台,用一个 Developer+ 会话:检查同一次运行上筛查了什么
打开 Guardrails → Matches 并过滤到那次运行。如果一条
Secrets Blocker 或 PII 规则在提示词上触发了,你现在就知道
这个智能体在试图外泄之前被递交了敏感材料。
7. 签名的合规报告——一份审计员能验证的追踪
为了对外证明,Compliance 执行面把这份追踪变成一个单一制品。 浏览框架目录、包和就绪度对每个 Member 开放且免费;安装 一个包、生成一份报告、上线,以及设定数据驻留,是付费计划上 工作区 Admin 的动作(服务端门控)。 一份合规报告经 Ed25519 签名、带一个 SHA256 内容哈希, 并可公开验证——接收者无需一个 OrcaRouter 账户就能核对它:| 端点 | 用途 |
|---|---|
GET /api/public/compliance/pubkey | 用来验证的公钥。 |
POST /api/public/compliance/verify | 验证一份报告的签名 + 哈希。 |
GET /api/public/compliance/share/:token | 一个指向某份报告的审计员分享链接。 |
soc2、hipaa、gdpr、
iso_27001、iso_42001、nist_ai_rmf、pci_dss、欧盟 AI 法案
(eu_ai_act),以及 OWASP Top 10 for LLM Applications
(owasp_llm)等等——安装一个包会物化匹配的防护栏和防火墙策略,
这样你报告所依据的控制就是实际被执行的控制。
数据驻留在这里指的是报告制品的区域(
us / eu / uk /
ap / cn / global),通过 PUT /api/compliance/residency
(Admin)设定;跨区域读取被扣下。它治理的是证据制品存放在何处
——它不是对你推理流量的地理钉定。8. 保留与被遗忘权
一份取证记录是有界的,而非永久的。请求日志默认保留 30 天, 并被服务端钳制到 180 天的硬上限。当一个用户自删除时,会应用 一个 30 天宽限窗口,此后他们的 PII 被清除,且级联清理掉他们的 防护栏匹配、请求日志和防火墙事件——在满足被遗忘权 / DSAR 义务的 同时保持聚合审计历史完整。9. 下一步去哪里
防护栏参考
Matches、原始内容记录、版本历史,以及完整的规则集。
防火墙参考
Events、Runs、异常、审批,以及审计日志。
过度自主权
在一个智能体行动之前约束它被允许做什么。
执行模式
Audit、shadow 和 observe——如何在执行之前先构建一份追踪。
