金融级智能体控制

一个金融智能体对账分类账、发起退款、转移资金，并读取卡和账户数据。一个糟糕工具调用的爆炸半径——一个失控的退款循环、一个分类账表上的 DROP、卡号泄露进一个提示——是以美元和审计发现来衡量的。本配方组装使这样一个智能体能安全运行的控制：tight 自治作为底线、人工审批 作用于动钱工具、一个按运行的成本上限作为断路器，以及一个可安装的 SOC 2 / PCI 合规包，它把策略以及一名审计员会要的签名证据都实例化出来。

这里的一切都在控制台中配置（Firewall → Posture / Policies、 Guardrails、Compliance）。那些管理路由使用你的控制台会话，而非一个中继密钥——只有你智能体发出的 /v1/* 调用携带一个 sk-orca-… 密钥。策略编辑需要 Developer 角色；合规的安装 / 上线 / 驻留地需要工作区 Admin 和一个付费计划。

1. 为何一个安全的金融 AI 智能体需要的不止防护栏

内容筛查捕捉一个提示中的卡号。它并不阻止智能体调用 refund.issue 一万次、访问一个内部 10.x 主机，或运行一次破坏性迁移。一个金融级姿态必须同时治理两个平面：

文本平面

防护栏筛查请求和响应文本——在模型看到之前 PII 被掩码、密钥被拦截。

动作平面

防火墙治理每一次工具调用、MCP 派发和出站请求——allow、audit、deny、sanitize、hold 或封顶成本。

本配方在彼此之上叠加四项控制。如果两个平面还不清楚，先阅读 Secure Agents 基线和防护栏 vs 防火墙。

2. 底线：应用 tight 自治

从最强的一键姿态出发。在 Firewall → Posture 中，应用 tight 自治级别（Developer 角色）。在单个事务中，它设置两个平面：

平面	`tight` 实例化什么
防火墙	默认 deny；拒绝破坏性 shell；拒绝 SSRF egress（fetch 形态的工具名）
防护栏	PII Shield + Secrets Blocker 在请求上执行

自治开关写入真实、可编辑的 autonomy_* 策略和防护栏行——它是一个种子，而不是一个黑盒。它带从一个审计快照的一键撤销。

在一个动钱的智能体上，不要在生产中直接翻到 tight。在 shadow mode 中应用它（或从 balanced 开始），这样每个执行性判定都被降级为 audit，原因为 [shadow] would …。观察 Firewall → Events / Runs，确认策略在你预期的内容上触发，然后再执行。

3. 审批：把动钱工具挂起交给人工（HITL）

默认拒绝阻止你没有允许的。你确实允许但会动钱的工具——refund.issue、 payment.send、ledger.adjust——既不该被自动允许也不该被自动拒绝。给它们 pending_approval 判定，这样一个人带外签字批准。在 Firewall → Policies 中，在你的默认值之上加一条规则：

Tool glob： refund.*（或 payment.send、ledger.adjust、…）
Verdict： pending_approval

当智能体调用它时：

被挂起的调用返回 HTTP 400 firewall_approval_pending，带一个审批 id；调用不会到达工具。
一名审查者解决它——从控制台（Developer+），或经由一个 HMAC 签名的 webhook 回调到你自己的审批系统 POST /api/v1/firewall/approvals/:id/callback。
智能体轮询 GET /api/v1/firewall/approvals/:id，然后携带一个一次性的 X-OrcaRouter-Firewall-Approval 头重新提交原始调用——网关便放行那一次。

钉住一个参数谓词，使只有大额操作才需要人工：glob refund.issue，带 JSONPath 子句 {"path":"$.amount_cents","op":"gt","value":50000}，判定 pending_approval。小额退款流过去；一个 $500+ 的退款等待一名审查者。参见防火墙规则了解完整的运算符集（eq、contains、regex、in、cidr_match、gt、lt）。

4. 断路器：封顶一次运行的成本

一个卡在重试循环里的金融智能体既是一个正确性 bug，也是一个计费 bug。一条 cap_cost 规则是失控循环的断路器：一旦智能体运行的累积花费越过一个按规则的美分上限，它就拒绝一次工具调用。加一条带判定 cap_cost 和一个 cap_cost_cents 上限的规则——例如 2000（USD $20.00）——限定到你智能体的工具。一旦一次运行的累计花费超过上限，那次运行中后续的调用被拒绝；一次新的运行从干净开始。

cap_cost 封顶的是智能体运行的花费，而不是单个密钥的生命周期预算。要对一个密钥设硬性上限，在 API 密钥本身上设置 credit_limit_usd （0 = 无限）——两者组合：密钥预算限定总花费，cap_cost 限定任何一次运行。

5. 文本平面上的双保险

tight 已经执行 PII Shield 和 Secrets Blocker。对一个金融智能体，倚重具体细节：

从请求中拦截卡号和密钥

Secrets Blocker 防护栏在模型看到之前捕捉提示中的 API 密钥和凭据。对于卡数据，一条 pii 规则把 credit_card 设为 block 动作（通过按实体的 entity_actions）会直接以 HTTP 400 guardrail_blocked 拒绝请求——而一次拦截消耗无配额（输入拦截在计量之前触发）。参见防护栏 §5。

在进入时掩码 PII

PII Shield 预设是一条单一的 pii 规则，mask，stage both。输入阶段掩码已上线：请求中的一个 iban 或 ssn 在模型被调用之前被渲染为 [IBAN] / [SSN]。（实时输出/流式掩码在路线图上；输出 block 今天在流式和非流式上都执行。）

脱敏参数，绝不信任结果

一个防火墙 sanitize 判定在转发之前从一次工具调用的参数中脱敏匹配的子串——它绝不重写一个工具返回的内容。要让一个密钥完全不进入请求，那是 Secrets Blocker 防护栏在文本平面上的职责。

6. 合规包：SOC 2 和 PCI 一次安装

上面的控制是实现。一名审计员想要证据。Compliance 平面闭合那个循环：浏览框架目录（免费，任何 Member），然后作为工作区 Admin 在一个付费计划上安装一个包。安装一个包会实例化映射到框架控制的防护栏和防火墙策略——因此给你审计工件的那同一次安装也立起了真实的执行。

# Console action (UserAuth session) — install the PCI DSS pack
POST /api/compliance/packs/pci_dss/install
# then, when you're ready to enforce:
POST /api/compliance/packs/pci_dss/golive

与一个金融智能体相关的已确认包包括 soc2（AICPA SOC 2 Trust Services Criteria）、pci_dss（PCI DSS 4.0）、glba （Gramm-Leach-Bliley）和 dora_eu（Digital Operational Resilience Act）——以及隐私框架（gdpr、uk_gdpr、ccpa）、安全/AI 框架（iso_27001、iso_42001、nist_ai_rmf、eu_ai_act、nist_800_53），以及 owasp_llm（OWASP Top 10 for LLM Applications）包。浏览实时目录了解完整集合。

一名审计员能验证的报告

什么	细节
签名	对一个 SHA-256 证据哈希的 Ed25519 —— 防篡改
格式	CSV / JSON / PDF
验证	公开 —— `GET /api/public/compliance/pubkey`、`POST /api/public/compliance/verify`
分享	一个只读的审计员链接：`GET /api/public/compliance/share/:token`

免费计划包含一份报告；CSV/JSON 导出和额外报告是付费的。生成一份报告和上线都被服务端门控到付费计划——目录和就绪度视图保持免费。

7. 数据驻留地、保留与擦除

一个金融级姿态必须回答”证据在哪里，以及你把日志保留多久”。

驻留地是合规报告工件的区域——us、eu、uk、ap、cn 或 global，通过 PUT /api/compliance/residency（Admin）设置。跨区域读取被拒绝。（这钉住的是工件，而不是推理在哪里运行。）
保留——请求日志默认 30 天，并被服务端钳制到 180 天的硬性上限。
擦除——一次自助账户删除进入一个 30 天宽限窗口，然后一次不可逆的 PII 擦洗级联穿过防护栏匹配、请求日志和防火墙事件。

每次策略、规则和合规变更都写入一条审计行（工作区 + 中央）。防护栏和防火墙变更也被版本化——从任何防护栏的 History 标签页 diff 和 revert。

8. 在依赖它之前先验证

不要凭信念上线一条金融策略。两个平面都有一个什么都不持久化、什么都不派发的沙箱：

Guardrails → Test——粘贴一个样本，挑选一个 stage，看到判定和渲染后的（掩码）文本。
Firewall → Test（Developer+）——dry-run 一个样本工具调用，看到判定、匹配到的规则和原因。

一旦上线，Firewall → Events / Runs 就是每一次评估的按运行记录，而anomaly feed 会对照工作区学习到的周内小时基线标记速率/成本尖峰、 retry_loop 以及前所未见的工具路径——恰好是先于一次金融事件的那些信号。

回顾

Secure Agents 基线

tight 实例化什么，以及如何在应用前模拟。

防火墙规则

深入讲解参数谓词、成本上限、egress 和序列。

SOC 2 证据

把实例化的控制变成一个签名的审计工件。

PII 安全日志

让卡和账户数据远离你的请求日志。

执行模式

Observe → shadow → enforce，动钱工具的安全上线。

危险的工具调用

一个金融智能体的工具允许列表所防御的威胁。

​1. 为何一个安全的金融 AI 智能体需要的不止防护栏

文本平面

动作平面

​2. 底线：应用 tight 自治

​3. 审批：把动钱工具挂起交给人工（HITL）

​4. 断路器：封顶一次运行的成本

​5. 文本平面上的双保险

​6. 合规包：SOC 2 和 PCI 一次安装

​一名审计员能验证的报告

​7. 数据驻留地、保留与擦除

​8. 在依赖它之前先验证

​回顾

Secure Agents 基线

防火墙规则

SOC 2 证据

PII 安全日志

执行模式

危险的工具调用

1. 为何一个安全的金融 AI 智能体需要的不止防护栏

2. 底线：应用 tight 自治

3. 审批：把动钱工具挂起交给人工（HITL）

4. 断路器：封顶一次运行的成本

5. 文本平面上的双保险

6. 合规包：SOC 2 和 PCI 一次安装

一名审计员能验证的报告

7. 数据驻留地、保留与擦除

8. 在依赖它之前先验证

回顾