跳转到主要内容
一个金融智能体对账分类账、发起退款、转移资金,并读取卡和账户数据。 一个糟糕工具调用的爆炸半径——一个失控的退款循环、一个分类账表上的 DROP、卡号泄露进一个提示——是以美元和审计发现来衡量的。本配方组装 使这样一个智能体能安全运行的控制:tight 自治作为底线、人工审批 作用于动钱工具、一个按运行的成本上限作为断路器,以及一个可安装的 SOC 2 / PCI 合规包,它把策略以及一名审计员会要的签名证据都实例化 出来。
这里的一切都在控制台中配置(Firewall → Posture / Policies、 Guardrails、Compliance)。那些管理路由使用你的控制台会话,而非一个 中继密钥——只有你智能体发出的 /v1/* 调用携带一个 sk-orca-… 密钥。 策略编辑需要 Developer 角色;合规的安装 / 上线 / 驻留地需要工作区 Admin 和一个付费计划

1. 为何一个安全的金融 AI 智能体需要的不止防护栏

内容筛查捕捉一个提示中的卡号。它并不阻止智能体调用 refund.issue 一万次、访问一个内部 10.x 主机,或运行一次破坏性迁移。一个金融级 姿态必须同时治理两个平面:

文本平面

防护栏 筛查请求和响应文本——在模型看到 之前 PII 被掩码、密钥被拦截。

动作平面

防火墙 治理每一次工具调用、MCP 派发和出站 请求——allow、audit、deny、sanitize、hold 或封顶成本。
本配方在彼此之上叠加四项控制。如果两个平面还不清楚,先阅读 Secure Agents 基线防护栏 vs 防火墙

2. 底线:应用 tight 自治

从最强的一键姿态出发。在 Firewall → Posture 中,应用 tight 自治级别Developer 角色)。在单个事务中,它设置两个平面:
平面tight 实例化什么
防火墙默认 deny;拒绝破坏性 shell;拒绝 SSRF egress(fetch 形态的工具名)
防护栏PII Shield + Secrets Blocker 在请求上执行
自治开关写入真实、可编辑autonomy_* 策略和防护栏行——它是一个 种子,而不是一个黑盒。它带从一个审计快照的一键撤销。
在一个动钱的智能体上,不要在生产中直接翻到 tight。在 shadow mode 中应用它(或从 balanced 开始),这样每个执行性判定都被降级为 audit,原因为 [shadow] would …。观察 Firewall → Events / Runs,确认策略在你预期的 内容上触发,然后再执行。

3. 审批:把动钱工具挂起交给人工(HITL)

默认拒绝阻止你没有允许的。你确实允许但会动钱的工具——refund.issuepayment.sendledger.adjust——既不该被自动允许不该被自动拒绝。 给它们 pending_approval 判定,这样一个人带外签字批准。 Firewall → Policies 中,在你的默认值之上加一条规则:
  • Tool glob: refund.*(或 payment.sendledger.adjust、…)
  • Verdict: pending_approval
当智能体调用它时:
  1. 被挂起的调用返回 HTTP 400 firewall_approval_pending,带一个 审批 id;调用不会到达工具。
  2. 一名审查者解决它——从控制台(Developer+),或经由一个 HMAC 签名的 webhook 回调到你自己的审批系统 POST /api/v1/firewall/approvals/:id/callback
  3. 智能体轮询 GET /api/v1/firewall/approvals/:id,然后携带一个一次性的 X-OrcaRouter-Firewall-Approval 头重新提交原始调用——网关便放行 那一次。
钉住一个参数谓词,使只有大额操作才需要人工:glob refund.issue, 带 JSONPath 子句 {"path":"$.amount_cents","op":"gt","value":50000}, 判定 pending_approval。小额退款流过去;一个 $500+ 的退款等待一名 审查者。参见 防火墙规则 了解完整的运算符集 (eqcontainsregexincidr_matchgtlt)。

4. 断路器:封顶一次运行的成本

一个卡在重试循环里的金融智能体既是一个正确性 bug,也是一个计费 bug。 一条 cap_cost 规则是失控循环的断路器:一旦智能体运行的累积花费越过 一个按规则的美分上限,它就拒绝一次工具调用。 加一条带判定 cap_cost 和一个 cap_cost_cents 上限的规则——例如 2000(USD $20.00)——限定到你智能体的工具。一旦一次运行的累计花费 超过上限,那次运行中后续的调用被拒绝;一次新的运行从干净开始。
cap_cost 封顶的是智能体运行的花费,而不是单个密钥的生命周期预算。 要对一个密钥设硬性上限,在 API 密钥本身上设置 credit_limit_usd0 = 无限)——两者组合:密钥预算限定总花费,cap_cost 限定任何一次 运行。

5. 文本平面上的双保险

tight 已经执行 PII Shield 和 Secrets Blocker。对一个金融智能体,倚重 具体细节:
Secrets Blocker 防护栏在模型看到之前捕捉提示中的 API 密钥和凭据。 对于卡数据,一条 pii 规则把 credit_card 设为 block 动作(通过 按实体的 entity_actions)会直接以 HTTP 400 guardrail_blocked 拒绝 请求——而一次拦截消耗无配额(输入拦截在计量之前触发)。参见 防护栏 §5
PII Shield 预设是一条单一的 pii 规则,mask,stage both。 输入阶段掩码已上线:请求中的一个 ibanssn 在模型被调用之前 被渲染为 [IBAN] / [SSN]。(实时输出/流式掩码在路线图上;输出 block 今天在流式和非流式上都执行。)
一个防火墙 sanitize 判定在转发之前从一次工具调用的参数中脱敏 匹配的子串——它绝不重写一个工具返回的内容。要让一个密钥完全不 进入请求,那是 Secrets Blocker 防护栏在文本平面上的职责。

6. 合规包:SOC 2 和 PCI 一次安装

上面的控制是实现。一名审计员想要证据Compliance 平面闭合那个 循环:浏览框架目录(免费,任何 Member),然后作为工作区 Admin 在一个付费计划上安装一个包。 安装一个包会实例化映射到框架控制的防护栏和防火墙策略——因此给你 审计工件的那同一次安装也立起了真实的执行。
# Console action (UserAuth session) — install the PCI DSS pack
POST /api/compliance/packs/pci_dss/install
# then, when you're ready to enforce:
POST /api/compliance/packs/pci_dss/golive
与一个金融智能体相关的已确认包包括 soc2(AICPA SOC 2 Trust Services Criteria)、pci_dss(PCI DSS 4.0)、glba (Gramm-Leach-Bliley)和 dora_eu(Digital Operational Resilience Act)——以及隐私框架(gdpruk_gdprccpa)、安全/AI 框架 (iso_27001iso_42001nist_ai_rmfeu_ai_actnist_800_53), 以及 owasp_llm(OWASP Top 10 for LLM Applications)包。浏览实时 目录了解完整集合。

一名审计员能验证的报告

什么细节
签名对一个 SHA-256 证据哈希的 Ed25519 —— 防篡改
格式CSV / JSON / PDF
验证公开 —— GET /api/public/compliance/pubkeyPOST /api/public/compliance/verify
分享一个只读的审计员链接:GET /api/public/compliance/share/:token
免费计划包含一份报告;CSV/JSON 导出和额外报告是付费的。生成一份报告和 上线都被服务端门控到付费计划——目录和就绪度视图保持免费。

7. 数据驻留地、保留与擦除

一个金融级姿态必须回答”证据在哪里,以及你把日志保留多久”。
  • 驻留地是合规报告工件的区域——useuukapcnglobal,通过 PUT /api/compliance/residencyAdmin)设置。跨区域 读取被拒绝。(这钉住的是工件,而不是推理在哪里运行。)
  • 保留——请求日志默认 30 天,并被服务端钳制到 180 天的硬性 上限。
  • 擦除——一次自助账户删除进入一个 30 天宽限窗口,然后一次不可逆 的 PII 擦洗级联穿过防护栏匹配、请求日志和防火墙事件。
每次策略、规则和合规变更都写入一条审计行(工作区 + 中央)。防护栏和 防火墙变更也被版本化——从任何防护栏的 History 标签页 diff 和 revert。

8. 在依赖它之前先验证

不要凭信念上线一条金融策略。两个平面都有一个什么都不持久化、什么都不 派发的沙箱:
  • Guardrails → Test——粘贴一个样本,挑选一个 stage,看到判定和 渲染后的(掩码)文本。
  • Firewall → TestDeveloper+)——dry-run 一个样本工具调用, 看到判定、匹配到的规则和原因。
一旦上线,Firewall → Events / Runs 就是每一次评估的按运行记录, 而anomaly feed 会对照工作区学习到的周内小时基线标记速率/成本尖峰、 retry_loop 以及前所未见的工具路径——恰好是先于一次金融事件的那些信号。

回顾

Secure Agents 基线

tight 实例化什么,以及如何在应用前模拟。

防火墙规则

深入讲解参数谓词、成本上限、egress 和序列。

SOC 2 证据

把实例化的控制变成一个签名的审计工件。

PII 安全日志

让卡和账户数据远离你的请求日志。

执行模式

Observe → shadow → enforce,动钱工具的安全上线。

危险的工具调用

一个金融智能体的工具允许列表所防御的威胁。