DROP、卡號洩漏
進一個提示——是以美元與稽核發現來衡量的。本配方
組裝起讓這樣一個代理運行起來安全的控制:作為底線的 tight
自主、對動錢工具的人工審批、
作為斷路器的逐 run 成本上限,以及一個可安裝的
SOC 2 / PCI 合規包,它具現化政策以及
一位稽核員會要求的簽署證據。
這裡的一切都在主控台中設定(Firewall → Posture /
Policies、Guardrails、Compliance)。那些管理路由使用你的
主控台工作階段,而非一把中繼金鑰——只有你代理發出的
/v1/* 呼叫攜帶一把 sk-orca-… 金鑰。政策編輯需要 Developer
角色;合規安裝/上線/駐留地需要工作區
Admin 與一個付費方案。1. 為何一個安全的金融 AI 代理需要的不只是防護欄
內容篩查捕捉一個提示中的卡號。它不會阻止 代理呼叫refund.issue 一萬次、觸及一個
內部 10.x 主機,或運行一次破壞性遷移。一個
金融級的姿態必須同時治理兩個平面:
文字平面
防護欄篩查請求與回應文字——
PII 遮罩、密鑰封鎖,在模型看見它們之前。
動作平面
防火牆治理每個工具呼叫、MCP
派發與外送請求——allow、audit、deny、sanitize、保留,或
成本上限。
2. 底線:套用 tight 自主
從最強的一鍵姿態開始。在 Firewall → Posture 中, 套用tight 自主等級
(Developer 角色)。在一次單一交易中,它設定兩個平面:
| 平面 | tight 具現化什麼 |
|---|---|
| 防火牆 | 預設 deny;拒絕破壞性 shell;拒絕 SSRF egress(擷取形狀的工具名稱) |
| 防護欄 | 對請求強制執行 PII Shield + Secrets Blocker |
autonomy_* 政策與
防護欄列——它是一個種子,不是一個黑盒。它有從一個
稽核快照而來的一鍵還原。
3. 審批:為一個人類保留動錢工具(HITL)
預設拒絕阻止你沒允許的。你確實允許但 會動錢的工具——refund.issue、payment.send、ledger.adjust——應該
既不被自動允許也不被自動拒絕。給它們 pending_approval
裁決,這樣一個人類就在頻道外簽核。
在 Firewall → Policies 中,在你的預設值之上加一條規則:
- Tool glob:
refund.*(或payment.send、ledger.adjust、…) - Verdict:
pending_approval
- 被保留的呼叫回傳 HTTP 400
firewall_approval_pending,帶一個 審批 id;該呼叫不會抵達工具。 - 一位審查者解決它——從主控台(Developer+),或透過一個
HMAC 簽署的 webhook 回呼到你自己的審批系統,位於
POST /api/v1/firewall/approvals/:id/callback。 - 代理輪詢
GET /api/v1/firewall/approvals/:id,然後重新提交 原始呼叫,帶一個一次性的X-OrcaRouter-Firewall-Approval標頭——閘道讓它通過那一次。
4. 斷路器:為一次 run 設定成本上限
一個卡在重試迴圈的金融代理既是一個正確性 bug 也是一個 計費 bug。一條cap_cost 規則是失控迴圈斷路器:它會在
代理 run 的累計花費跨越一個逐規則的分上限後拒絕一個工具
呼叫。
加一條帶裁決 cap_cost 與一個 cap_cost_cents 上限的規則——例如
2000(USD $20.00)——範圍限定到你代理的工具。一旦一個 run 的
運行花費超過上限,那個 run 中的後續呼叫就被拒絕;一個全新的 run
從乾淨開始。
cap_cost 為代理 run 的花費設上限,而非一把單一金鑰的終生
預算。要對一把金鑰設一個硬性上限,在 API
金鑰本身上設定 credit_limit_usd(0 = 無限制)——兩者組合:
金鑰預算限制總花費,cap_cost 限制任何單一 run。5. 文字平面上的雙重保險
tight 已經強制執行 PII Shield 與 Secrets Blocker。對一個金融
代理,倚賴這些細節:
從請求中封鎖卡號與密鑰
從請求中封鎖卡號與密鑰
Secrets Blocker 防護欄會在模型看見之前捕捉提示中的 API
金鑰與憑證。對於卡片資料,一條
pii 規則
帶 credit_card 設為 block 動作(透過逐實體
entity_actions)會以 HTTP 400 guardrail_blocked 直接拒絕
請求——而一個 block 消耗零配額(輸入 block 在計量之前
觸發)。參見
防護欄 §5。在進入路上遮罩 PII
在進入路上遮罩 PII
PII Shield 預設集是一條單一的
pii 規則,mask,stage
both。輸入階段遮罩已上線:請求中的一個 iban 或 ssn
會在模型被呼叫之前被渲染為 [IBAN] / [SSN]。
(即時輸出/串流遮罩在規劃藍圖中;輸出 block 今天在串流與非串流上
都會被強制執行。)淨化引數,絕不信任結果
淨化引數,絕不信任結果
一個防火牆
sanitize 裁決會在轉送之前,從一個工具
呼叫的引數遮蔽匹配到的子字串——它絕不重寫一個工具
回傳的內容。要把一個密鑰完全擋在一個請求之外,那是
文字平面上 Secrets Blocker 防護欄的工作。6. 合規包:一次安裝搞定 SOC 2 與 PCI
上方的控制是實作。一位稽核員想要的是 證據。Compliance 平面封閉那個迴圈:瀏覽 框架目錄(免費,任何 Member),然後作為 工作區 Admin 在一個付費方案上安裝一個包。 安裝一個包會具現化映射到框架控制的防護欄與防火牆政策 ——所以給你稽核產物的同一個安裝,也建立起真實的強制執行。soc2(AICPA
SOC 2 Trust Services Criteria)、pci_dss(PCI DSS 4.0)、glba
(Gramm-Leach-Bliley),以及 dora_eu(Digital Operational Resilience
Act)——並列於隱私框架(gdpr、uk_gdpr、ccpa)、
安全/AI 框架(iso_27001、iso_42001、nist_ai_rmf、
eu_ai_act、nist_800_53),以及 owasp_llm(OWASP Top 10 for
LLM Applications)包。瀏覽即時目錄以了解完整集合。
一位稽核員能驗證的報告
| 什麼 | 細節 |
|---|---|
| 簽章 | 對一個 SHA-256 證據雜湊的 Ed25519 簽章——可察覺竄改 |
| 格式 | CSV / JSON / PDF |
| 驗證 | 公開——GET /api/public/compliance/pubkey、POST /api/public/compliance/verify |
| 分享 | 一個唯讀的稽核員連結:GET /api/public/compliance/share/:token |
免費方案包含一份報告;CSV/JSON 匯出與額外的報告
是付費的。產生一份報告與上線都有伺服器端管控、限付費
方案——目錄與就緒度檢視保持免費。
7. 資料駐留地、保留期與抹除
一個金融級的姿態必須回答「證據在哪裡,以及你 保留日誌多久」。- 駐留地是合規報告產物的區域——
us、eu、uk、ap、cn或global,透過PUT /api/compliance/residency(Admin)設定。跨區讀取會被 扣留。(這固定的是產物,而非推論在何處運行。) - 保留期——request log 預設為 30 天,並在伺服器端被 收緊到 180 天的硬性上限。
- 抹除——一次自助式帳號刪除進入一個 30 天寬限 視窗,然後一次不可逆的 PII 洗刷級聯穿過 guardrail matches、request log 與 firewall events。
8. 在你依賴它之前驗證
別憑信心出貨一個金融政策。兩個平面都有一個什麼都不 持久化、什麼都不派發的沙盒:- Guardrails → Test——貼上一個樣本、挑選一個階段,查看裁決 與渲染後的(遮罩)文字。
- Firewall → Test(Developer+)——乾跑一個樣本工具呼叫並 查看裁決、匹配到的規則與原因。
retry_loop 以及從未見過的工具路徑標記速率/成本飆升——
正是那些先於一次金融事件的訊號。
重點回顧
Secure Agents 基準
tight 具現化什麼,以及如何在套用前模擬。防火牆規則
深入的引數判定式、成本上限、egress 與序列。
SOC 2 證據
把具現化的控制轉化為一個簽署的稽核產物。
PII 安全的日誌
讓卡片與帳戶資料遠離你的 request log。
強制執行模式
Observe → shadow → enforce,動錢工具的安全上線。
危險的工具呼叫
一個金融代理的工具允許清單所防禦的威脅。
