Chuyển đến nội dung chính
Một agent tài chính đối soát sổ cái, phát hành hoàn tiền, chuyển tiền, và đọc dữ liệu thẻ và tài khoản. Bán kính sát thương của một cuộc gọi tool xấu — một vòng lặp hoàn tiền mất kiểm soát, một DROP trên một bảng sổ cái, số thẻ rò rỉ vào một prompt — được đo bằng đô-la và phát hiện audit. Công thức này lắp ráp các kiểm soát khiến một agent như vậy an toàn để chạy: tự chủ tight làm tầng sàn, phê duyệt bởi con người trên các tool chuyển tiền, một cost cap theo từng lần chạy làm cầu dao ngắt mạch, và một compliance pack SOC 2 / PCI có thể cài đặt, vốn cụ thể hóa chính sách bằng chứng đã ký mà một auditor sẽ yêu cầu.
Mọi thứ ở đây được cấu hình trong console (Firewall → Posture / Policies, Guardrails, Compliance). Các route quản lý đó dùng session console của bạn, không phải một relay key — chỉ các cuộc gọi /v1/* mà agent của bạn thực hiện mới mang một key sk-orca-…. Việc chỉnh chính sách yêu cầu vai trò Developer; cài đặt / go-live / nơi cư trú compliance yêu cầu workspace Admin và một gói trả phí.

1. Tại sao một secure finance ai agent cần nhiều hơn guardrail

Sàng lọc nội dung bắt một số thẻ trong một prompt. Nó không dừng agent khỏi gọi refund.issue mười nghìn lần, vươn tới một host nội bộ 10.x, hoặc chạy một migration phá hủy. Một tư thế cấp tài chính phải quản lý cả hai mặt phẳng cùng lúc:

Mặt phẳng văn bản

Guardrails sàng lọc văn bản request và response — PII bị mask, secret bị block, trước khi mô hình từng thấy chúng.

Mặt phẳng hành động

Firewall quản lý mọi cuộc gọi tool, dispatch MCP, và request đi ra ngoài — allow, audit, deny, sanitize, giữ lại, hoặc giới hạn chi phí.
Công thức này xếp chồng bốn kiểm soát lên nhau. Đọc baseline Secure AgentsGuardrails vs Firewall trước nếu hai mặt phẳng chưa rõ.

2. Tầng sàn: áp dụng tự chủ tight

Bắt đầu từ tư thế một-công-tắc mạnh nhất. Trong Firewall → Posture, áp dụng cấp độ tự chủ tight autonomy level (vai trò Developer). Trong một transaction duy nhất nó đặt cả hai mặt phẳng:
Mặt phẳngtight cụ thể hóa cái gì
FirewallDefault-deny; deny shell phá hủy; deny egress SSRF (tên tool dạng fetch)
GuardrailsPII Shield + Secrets Blocker thực thi trên request
Công tắc tự chủ ghi các hàng chính sách và guardrail autonomy_* thực, có thể chỉnh sửa — đó là một seed, không phải một hộp đen. Nó có hoàn tác một cú nhấp từ một snapshot audit.
Trên một agent chuyển tiền, đừng lật thẳng sang tight trong production. Áp dụng nó trong shadow mode (hoặc bắt đầu ở balanced) để mọi verdict thực thi bị hạ cấp thành audit với một lý do [shadow] would …. Theo dõi Firewall → Events / Runs, xác nhận chính sách kích hoạt trên những gì bạn mong đợi, rồi thực thi.

3. Phê duyệt: giữ các tool chuyển tiền lại cho một con người (HITL)

Default-deny dừng những gì bạn không cho phép. Các tool bạn cho phép nhưng chuyển tiền — refund.issue, payment.send, ledger.adjust — không nên được tự-động-cho-phép hay tự-động-deny. Cho chúng verdict pending_approval để một con người ký duyệt ngoài luồng. Trong Firewall → Policies, thêm một quy tắc bên trên mặc định của bạn:
  • Tool glob: refund.* (hoặc payment.send, ledger.adjust, …)
  • Verdict: pending_approval
Khi agent gọi nó:
  1. Cuộc gọi bị giữ trả về HTTP 400 firewall_approval_pending với một approval id; cuộc gọi không đến được tool.
  2. Một reviewer giải quyết nó — từ console (Developer+), hoặc qua một webhook callback ký HMAC tới hệ thống phê duyệt của riêng bạn tại POST /api/v1/firewall/approvals/:id/callback.
  3. Agent poll GET /api/v1/firewall/approvals/:id, rồi gửi lại cuộc gọi gốc với một header dùng một lần X-OrcaRouter-Firewall-Approval — gateway cho nó đi qua đúng lần đó.
Ghim một predicate argument để chỉ các thao tác lớn mới cần một con người: glob refund.issue với mệnh đề JSONPath {"path":"$.amount_cents","op":"gt","value":50000}, verdict pending_approval. Các khoản hoàn tiền nhỏ chảy qua; một khoản hoàn tiền $500+ chờ một reviewer. Xem Firewall rules cho tập toán tử đầy đủ (eq, contains, regex, in, cidr_match, gt, lt).

4. Cầu dao ngắt mạch: giới hạn chi phí của một lần chạy

Một agent tài chính mắc kẹt trong một vòng lặp retry vừa là một bug tính đúng đắn vừa là một bug billing. Một quy tắc cap_cost là cầu dao vòng-lặp-mất-kiểm-soát: nó deny một cuộc gọi tool một khi mức chi tiêu tích lũy của lần chạy agent vượt qua một mức trần cents theo từng quy tắc. Thêm một quy tắc với verdict cap_cost và một mức trần cap_cost_cents — vd: 2000 (USD $20.00) — có phạm vi các tool của agent bạn. Một khi mức chi tiêu đang chạy của một lần chạy vượt mức trần, các cuộc gọi tiếp theo trong lần chạy đó bị deny; một lần chạy mới bắt đầu sạch.
cap_cost giới hạn mức chi tiêu của lần chạy agent, không phải ngân sách trọn đời của một key. Cho một mức trần cứng trên một key, đặt credit_limit_usd trên chính API key (0 = không giới hạn) — hai cái phối hợp: ngân sách key giới hạn tổng chi tiêu, cap_cost giới hạn bất kỳ một lần chạy nào.

5. Đai-và-dây trên mặt phẳng văn bản

tight đã thực thi PII Shield và Secrets Blocker. Cho một agent tài chính, dựa vào các điểm cụ thể:
Guardrail Secrets Blocker bắt API key và thông tin xác thực trong prompt trước khi mô hình thấy chúng. Cho dữ liệu thẻ, một quy tắc pii với credit_card đặt thành hành động block (qua entity_actions theo từng thực thể) từ chối request thẳng với HTTP 400 guardrail_blocked — và một block tốn no quota (các block input kích hoạt trước khi đo lường). Xem Guardrails §5.
Preset PII Shield là một quy tắc pii duy nhất, mask, stage both. Masking stage input đã hoạt động: một iban hoặc ssn trong request được render thành [IBAN] / [SSN] trước khi mô hình được gọi. (Live output/streaming masking nằm trong roadmap; block output được thực thi trên streaming và non-streaming hôm nay.)
Một verdict Firewall sanitize redact các chuỗi con đã khớp khỏi argument của một cuộc gọi tool trước khi chuyển tiếp — nó không bao giờ viết lại những gì một tool trả về. Để giữ một secret khỏi một request hoàn toàn, đó là nhiệm vụ của guardrail Secrets Blocker trên mặt phẳng văn bản.

6. Compliance pack: SOC 2 và PCI trong một lần cài đặt

Các kiểm soát ở trên là phần triển khai. Một auditor muốn bằng chứng. Mặt phẳng Compliance đóng vòng đó: duyệt catalog framework (miễn phí, mọi Member), rồi cài đặt một pack như workspace Admin trên một gói trả phí. Cài đặt một pack cụ thể hóa các guardrail và chính sách firewall ánh xạ tới các kiểm soát của framework — nên cùng lần cài đặt cho bạn artifact audit cũng dựng lên thực thi thực.
# Console action (UserAuth session) — install the PCI DSS pack
POST /api/compliance/packs/pci_dss/install
# then, when you're ready to enforce:
POST /api/compliance/packs/pci_dss/golive
Các pack đã xác nhận liên quan đến một agent tài chính bao gồm soc2 (AICPA SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0), glba (Gramm-Leach-Bliley), và dora_eu (Digital Operational Resilience Act) — bên cạnh các framework quyền riêng tư (gdpr, uk_gdpr, ccpa), các framework bảo mật/AI (iso_27001, iso_42001, nist_ai_rmf, eu_ai_act, nist_800_53), và pack owasp_llm (OWASP Top 10 cho LLM Applications). Duyệt catalog trực tiếp cho tập đầy đủ.

Báo cáo mà một auditor có thể kiểm chứng

Cái gìChi tiết
Chữ kýEd25519 trên một hash bằng chứng SHA-256 — chống giả mạo
Định dạngCSV / JSON / PDF
Kiểm chứngCông khai — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify
Chia sẻMột liên kết auditor chỉ-đọc: GET /api/public/compliance/share/:token
Gói miễn phí bao gồm một báo cáo; xuất CSV/JSON và các báo cáo bổ sung là trả phí. Tạo một báo cáo và go-live bị server-gate cho các gói trả phí — các chế độ xem catalog và mức sẵn sàng vẫn miễn phí.

7. Nơi cư trú dữ liệu, lưu giữ, và xóa

Một tư thế cấp tài chính phải trả lời “bằng chứng ở đâu, và bạn giữ log bao lâu.”
  • Nơi cư trú là vùng của artifact báo cáo compliance — us, eu, uk, ap, cn, hoặc global, đặt qua PUT /api/compliance/residency (Admin). Các lượt đọc xuyên vùng bị giữ lại. (Điều này ghim artifact, không phải nơi suy luận chạy.)
  • Lưu giữ — request log mặc định 30 ngày và bị server kẹp chặt ở mức tối đa cứng 180 ngày.
  • Xóa — một lần xóa tài khoản tự phục vụ đi vào một cửa sổ 30 ngày ân hạn, rồi một lần chà sạch PII không thể đảo ngược theo tầng qua các guardrail match, request log, và firewall event.
Mọi thay đổi chính sách, quy tắc, và compliance ghi một hàng audit (workspace + trung tâm). Các thay đổi guardrail và firewall cũng được phiên bản hóa — diff và revert bất kỳ guardrail nào từ tab History của nó.

8. Kiểm chứng trước khi bạn phụ thuộc vào nó

Đừng ship một chính sách tài chính trên niềm tin. Cả hai mặt phẳng đều có một sandbox không persist gì và không dispatch gì:
  • Guardrails → Test — dán một mẫu, chọn một stage, xem verdict và văn bản đã render (đã mask).
  • Firewall → Test (Developer+) — dry-run một cuộc gọi tool mẫu và xem verdict, quy tắc đã khớp, và lý do.
Một khi live, Firewall → Events / Runs là bản ghi theo từng lần chạy của mọi lần đánh giá, và feed bất thường gắn cờ các spike tốc độ/chi phí đối với baseline giờ-trong-tuần đã học của workspace, retry_loop, và các đường tool chưa từng thấy — chính xác là các tín hiệu đi trước một sự cố tài chính.

Tóm lại

Baseline Secure Agents

tight cụ thể hóa cái gì, và cách mô phỏng trước khi áp dụng.

Firewall rules

Predicate argument, cost cap, egress, và chuỗi chuyên sâu.

Bằng chứng SOC 2

Biến các kiểm soát đã cụ thể hóa thành một artifact audit đã ký.

Ghi log an toàn PII

Giữ dữ liệu thẻ và tài khoản khỏi request log của bạn.

Chế độ thực thi

Observe → shadow → enforce, triển khai an toàn cho các tool chuyển tiền.

Cuộc gọi tool nguy hiểm

Mối đe dọa mà tool allow-list của một agent tài chính phòng thủ chống lại.