DROP、卡号泄露进一个提示——是以美元和审计发现来衡量的。本配方组装
使这样一个智能体能安全运行的控制:tight 自治作为底线、人工审批
作用于动钱工具、一个按运行的成本上限作为断路器,以及一个可安装的
SOC 2 / PCI 合规包,它把策略以及一名审计员会要的签名证据都实例化
出来。
这里的一切都在控制台中配置(Firewall → Posture / Policies、
Guardrails、Compliance)。那些管理路由使用你的控制台会话,而非一个
中继密钥——只有你智能体发出的
/v1/* 调用携带一个 sk-orca-… 密钥。
策略编辑需要 Developer 角色;合规的安装 / 上线 / 驻留地需要工作区
Admin 和一个付费计划。1. 为何一个安全的金融 AI 智能体需要的不止防护栏
内容筛查捕捉一个提示中的卡号。它并不阻止智能体调用refund.issue
一万次、访问一个内部 10.x 主机,或运行一次破坏性迁移。一个金融级
姿态必须同时治理两个平面:
文本平面
防护栏 筛查请求和响应文本——在模型看到
之前 PII 被掩码、密钥被拦截。
动作平面
防火墙 治理每一次工具调用、MCP 派发和出站
请求——allow、audit、deny、sanitize、hold 或封顶成本。
2. 底线:应用 tight 自治
从最强的一键姿态出发。在 Firewall → Posture 中,应用tight
自治级别(Developer
角色)。在单个事务中,它设置两个平面:
| 平面 | tight 实例化什么 |
|---|---|
| 防火墙 | 默认 deny;拒绝破坏性 shell;拒绝 SSRF egress(fetch 形态的工具名) |
| 防护栏 | PII Shield + Secrets Blocker 在请求上执行 |
autonomy_* 策略和防护栏行——它是一个
种子,而不是一个黑盒。它带从一个审计快照的一键撤销。
3. 审批:把动钱工具挂起交给人工(HITL)
默认拒绝阻止你没有允许的。你确实允许但会动钱的工具——refund.issue、
payment.send、ledger.adjust——既不该被自动允许也不该被自动拒绝。
给它们 pending_approval 判定,这样一个人带外签字批准。
在 Firewall → Policies 中,在你的默认值之上加一条规则:
- Tool glob:
refund.*(或payment.send、ledger.adjust、…) - Verdict:
pending_approval
- 被挂起的调用返回 HTTP 400
firewall_approval_pending,带一个 审批 id;调用不会到达工具。 - 一名审查者解决它——从控制台(Developer+),或经由一个
HMAC 签名的 webhook 回调到你自己的审批系统
POST /api/v1/firewall/approvals/:id/callback。 - 智能体轮询
GET /api/v1/firewall/approvals/:id,然后携带一个一次性的X-OrcaRouter-Firewall-Approval头重新提交原始调用——网关便放行 那一次。
4. 断路器:封顶一次运行的成本
一个卡在重试循环里的金融智能体既是一个正确性 bug,也是一个计费 bug。 一条cap_cost 规则是失控循环的断路器:一旦智能体运行的累积花费越过
一个按规则的美分上限,它就拒绝一次工具调用。
加一条带判定 cap_cost 和一个 cap_cost_cents 上限的规则——例如
2000(USD $20.00)——限定到你智能体的工具。一旦一次运行的累计花费
超过上限,那次运行中后续的调用被拒绝;一次新的运行从干净开始。
cap_cost 封顶的是智能体运行的花费,而不是单个密钥的生命周期预算。
要对一个密钥设硬性上限,在 API 密钥本身上设置 credit_limit_usd
(0 = 无限)——两者组合:密钥预算限定总花费,cap_cost 限定任何一次
运行。5. 文本平面上的双保险
tight 已经执行 PII Shield 和 Secrets Blocker。对一个金融智能体,倚重
具体细节:
从请求中拦截卡号和密钥
从请求中拦截卡号和密钥
Secrets Blocker 防护栏在模型看到之前捕捉提示中的 API 密钥和凭据。
对于卡数据,一条
pii 规则把 credit_card 设为 block 动作(通过
按实体的 entity_actions)会直接以 HTTP 400 guardrail_blocked 拒绝
请求——而一次拦截消耗无配额(输入拦截在计量之前触发)。参见
防护栏 §5。在进入时掩码 PII
在进入时掩码 PII
PII Shield 预设是一条单一的
pii 规则,mask,stage both。
输入阶段掩码已上线:请求中的一个 iban 或 ssn 在模型被调用之前
被渲染为 [IBAN] / [SSN]。(实时输出/流式掩码在路线图上;输出
block 今天在流式和非流式上都执行。)脱敏参数,绝不信任结果
脱敏参数,绝不信任结果
一个防火墙
sanitize 判定在转发之前从一次工具调用的参数中脱敏
匹配的子串——它绝不重写一个工具返回的内容。要让一个密钥完全不
进入请求,那是 Secrets Blocker 防护栏在文本平面上的职责。6. 合规包:SOC 2 和 PCI 一次安装
上面的控制是实现。一名审计员想要证据。Compliance 平面闭合那个 循环:浏览框架目录(免费,任何 Member),然后作为工作区 Admin 在一个付费计划上安装一个包。 安装一个包会实例化映射到框架控制的防护栏和防火墙策略——因此给你 审计工件的那同一次安装也立起了真实的执行。soc2(AICPA SOC 2 Trust
Services Criteria)、pci_dss(PCI DSS 4.0)、glba
(Gramm-Leach-Bliley)和 dora_eu(Digital Operational Resilience
Act)——以及隐私框架(gdpr、uk_gdpr、ccpa)、安全/AI 框架
(iso_27001、iso_42001、nist_ai_rmf、eu_ai_act、nist_800_53),
以及 owasp_llm(OWASP Top 10 for LLM Applications)包。浏览实时
目录了解完整集合。
一名审计员能验证的报告
| 什么 | 细节 |
|---|---|
| 签名 | 对一个 SHA-256 证据哈希的 Ed25519 —— 防篡改 |
| 格式 | CSV / JSON / PDF |
| 验证 | 公开 —— GET /api/public/compliance/pubkey、POST /api/public/compliance/verify |
| 分享 | 一个只读的审计员链接:GET /api/public/compliance/share/:token |
免费计划包含一份报告;CSV/JSON 导出和额外报告是付费的。生成一份报告和
上线都被服务端门控到付费计划——目录和就绪度视图保持免费。
7. 数据驻留地、保留与擦除
一个金融级姿态必须回答”证据在哪里,以及你把日志保留多久”。- 驻留地是合规报告工件的区域——
us、eu、uk、ap、cn或global,通过PUT /api/compliance/residency(Admin)设置。跨区域 读取被拒绝。(这钉住的是工件,而不是推理在哪里运行。) - 保留——请求日志默认 30 天,并被服务端钳制到 180 天的硬性 上限。
- 擦除——一次自助账户删除进入一个 30 天宽限窗口,然后一次不可逆 的 PII 擦洗级联穿过防护栏匹配、请求日志和防火墙事件。
8. 在依赖它之前先验证
不要凭信念上线一条金融策略。两个平面都有一个什么都不持久化、什么都不 派发的沙箱:- Guardrails → Test——粘贴一个样本,挑选一个 stage,看到判定和 渲染后的(掩码)文本。
- Firewall → Test(Developer+)——dry-run 一个样本工具调用, 看到判定、匹配到的规则和原因。
retry_loop 以及前所未见的工具路径——恰好是先于一次金融事件的那些信号。
回顾
Secure Agents 基线
tight 实例化什么,以及如何在应用前模拟。防火墙规则
深入讲解参数谓词、成本上限、egress 和序列。
SOC 2 证据
把实例化的控制变成一个签名的审计工件。
PII 安全日志
让卡和账户数据远离你的请求日志。
执行模式
Observe → shadow → enforce,动钱工具的安全上线。
危险的工具调用
一个金融智能体的工具允许列表所防御的威胁。
