DROP trên một bảng sổ cái, số
thẻ rò rỉ vào một prompt — được đo bằng đô-la và phát hiện audit. Công thức
này lắp ráp các kiểm soát khiến một agent như vậy an toàn để chạy: tự chủ
tight làm tầng sàn, phê duyệt bởi con người trên các tool chuyển tiền,
một cost cap theo từng lần chạy làm cầu dao ngắt mạch, và một compliance
pack SOC 2 / PCI có thể cài đặt, vốn cụ thể hóa chính sách và bằng
chứng đã ký mà một auditor sẽ yêu cầu.
Mọi thứ ở đây được cấu hình trong console (Firewall → Posture /
Policies, Guardrails, Compliance). Các route quản lý đó dùng session console
của bạn, không phải một relay key — chỉ các cuộc gọi
/v1/* mà agent của
bạn thực hiện mới mang một key sk-orca-…. Việc chỉnh chính sách yêu cầu vai
trò Developer; cài đặt / go-live / nơi cư trú compliance yêu cầu
workspace Admin và một gói trả phí.1. Tại sao một secure finance ai agent cần nhiều hơn guardrail
Sàng lọc nội dung bắt một số thẻ trong một prompt. Nó không dừng agent khỏi gọirefund.issue mười nghìn lần, vươn tới một host nội bộ 10.x, hoặc
chạy một migration phá hủy. Một tư thế cấp tài chính phải quản lý cả hai
mặt phẳng cùng lúc:
Mặt phẳng văn bản
Guardrails sàng lọc văn bản request và
response — PII bị mask, secret bị block, trước khi mô hình từng thấy
chúng.
Mặt phẳng hành động
Firewall quản lý mọi cuộc gọi tool, dispatch
MCP, và request đi ra ngoài — allow, audit, deny, sanitize, giữ lại,
hoặc giới hạn chi phí.
2. Tầng sàn: áp dụng tự chủ tight
Bắt đầu từ tư thế một-công-tắc mạnh nhất. Trong Firewall → Posture, áp dụng cấp độ tự chủtight
autonomy level (vai trò
Developer). Trong một transaction duy nhất nó đặt cả hai mặt phẳng:
| Mặt phẳng | tight cụ thể hóa cái gì |
|---|---|
| Firewall | Default-deny; deny shell phá hủy; deny egress SSRF (tên tool dạng fetch) |
| Guardrails | PII Shield + Secrets Blocker thực thi trên request |
autonomy_* thực,
có thể chỉnh sửa — đó là một seed, không phải một hộp đen. Nó có hoàn
tác một cú nhấp từ một snapshot audit.
3. Phê duyệt: giữ các tool chuyển tiền lại cho một con người (HITL)
Default-deny dừng những gì bạn không cho phép. Các tool bạn có cho phép nhưng chuyển tiền —refund.issue, payment.send, ledger.adjust — không
nên được tự-động-cho-phép hay tự-động-deny. Cho chúng verdict
pending_approval để một con người ký duyệt ngoài luồng.
Trong Firewall → Policies, thêm một quy tắc bên trên mặc định của bạn:
- Tool glob:
refund.*(hoặcpayment.send,ledger.adjust, …) - Verdict:
pending_approval
- Cuộc gọi bị giữ trả về HTTP 400
firewall_approval_pendingvới một approval id; cuộc gọi không đến được tool. - Một reviewer giải quyết nó — từ console (Developer+), hoặc qua một
webhook callback ký HMAC tới hệ thống phê duyệt của riêng bạn tại
POST /api/v1/firewall/approvals/:id/callback. - Agent poll
GET /api/v1/firewall/approvals/:id, rồi gửi lại cuộc gọi gốc với một header dùng một lầnX-OrcaRouter-Firewall-Approval— gateway cho nó đi qua đúng lần đó.
4. Cầu dao ngắt mạch: giới hạn chi phí của một lần chạy
Một agent tài chính mắc kẹt trong một vòng lặp retry vừa là một bug tính đúng đắn vừa là một bug billing. Một quy tắccap_cost là cầu dao
vòng-lặp-mất-kiểm-soát: nó deny một cuộc gọi tool một khi mức chi tiêu tích
lũy của lần chạy agent vượt qua một mức trần cents theo từng quy tắc.
Thêm một quy tắc với verdict cap_cost và một mức trần cap_cost_cents —
vd: 2000 (USD $20.00) — có phạm vi các tool của agent bạn. Một khi mức chi
tiêu đang chạy của một lần chạy vượt mức trần, các cuộc gọi tiếp theo trong
lần chạy đó bị deny; một lần chạy mới bắt đầu sạch.
cap_cost giới hạn mức chi tiêu của lần chạy agent, không phải ngân
sách trọn đời của một key. Cho một mức trần cứng trên một key, đặt
credit_limit_usd trên chính API key (0 = không giới hạn) — hai cái phối
hợp: ngân sách key giới hạn tổng chi tiêu, cap_cost giới hạn bất kỳ một
lần chạy nào.5. Đai-và-dây trên mặt phẳng văn bản
tight đã thực thi PII Shield và Secrets Blocker. Cho một agent tài chính,
dựa vào các điểm cụ thể:
Block số thẻ và secret khỏi request
Block số thẻ và secret khỏi request
Guardrail Secrets Blocker bắt API key và thông tin xác thực trong
prompt trước khi mô hình thấy chúng. Cho dữ liệu thẻ, một quy tắc
pii
với credit_card đặt thành hành động block (qua entity_actions
theo từng thực thể) từ chối request thẳng với HTTP 400
guardrail_blocked — và một block tốn no quota (các block input
kích hoạt trước khi đo lường). Xem
Guardrails §5.Mask PII trên đường vào
Mask PII trên đường vào
Preset PII Shield là một quy tắc
pii duy nhất, mask, stage
both. Masking stage input đã hoạt động: một iban hoặc ssn trong
request được render thành [IBAN] / [SSN] trước khi mô hình được gọi.
(Live output/streaming masking nằm trong roadmap; block output được
thực thi trên streaming và non-streaming hôm nay.)Sanitize args, không bao giờ tin kết quả
Sanitize args, không bao giờ tin kết quả
Một verdict Firewall
sanitize redact các chuỗi con đã khớp khỏi
argument của một cuộc gọi tool trước khi chuyển tiếp — nó không bao
giờ viết lại những gì một tool trả về. Để giữ một secret khỏi một
request hoàn toàn, đó là nhiệm vụ của guardrail Secrets Blocker trên
mặt phẳng văn bản.6. Compliance pack: SOC 2 và PCI trong một lần cài đặt
Các kiểm soát ở trên là phần triển khai. Một auditor muốn bằng chứng. Mặt phẳng Compliance đóng vòng đó: duyệt catalog framework (miễn phí, mọi Member), rồi cài đặt một pack như workspace Admin trên một gói trả phí. Cài đặt một pack cụ thể hóa các guardrail và chính sách firewall ánh xạ tới các kiểm soát của framework — nên cùng lần cài đặt cho bạn artifact audit cũng dựng lên thực thi thực.soc2
(AICPA SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0),
glba (Gramm-Leach-Bliley), và dora_eu (Digital Operational
Resilience Act) — bên cạnh các framework quyền riêng tư (gdpr, uk_gdpr,
ccpa), các framework bảo mật/AI (iso_27001, iso_42001, nist_ai_rmf,
eu_ai_act, nist_800_53), và pack owasp_llm (OWASP Top 10 cho LLM
Applications). Duyệt catalog trực tiếp cho tập đầy đủ.
Báo cáo mà một auditor có thể kiểm chứng
| Cái gì | Chi tiết |
|---|---|
| Chữ ký | Ed25519 trên một hash bằng chứng SHA-256 — chống giả mạo |
| Định dạng | CSV / JSON / PDF |
| Kiểm chứng | Công khai — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify |
| Chia sẻ | Một liên kết auditor chỉ-đọc: GET /api/public/compliance/share/:token |
Gói miễn phí bao gồm một báo cáo; xuất CSV/JSON và các báo cáo bổ sung là
trả phí. Tạo một báo cáo và go-live bị server-gate cho các gói trả phí —
các chế độ xem catalog và mức sẵn sàng vẫn miễn phí.
7. Nơi cư trú dữ liệu, lưu giữ, và xóa
Một tư thế cấp tài chính phải trả lời “bằng chứng ở đâu, và bạn giữ log bao lâu.”- Nơi cư trú là vùng của artifact báo cáo compliance —
us,eu,uk,ap,cn, hoặcglobal, đặt quaPUT /api/compliance/residency(Admin). Các lượt đọc xuyên vùng bị giữ lại. (Điều này ghim artifact, không phải nơi suy luận chạy.) - Lưu giữ — request log mặc định 30 ngày và bị server kẹp chặt ở mức tối đa cứng 180 ngày.
- Xóa — một lần xóa tài khoản tự phục vụ đi vào một cửa sổ 30 ngày ân hạn, rồi một lần chà sạch PII không thể đảo ngược theo tầng qua các guardrail match, request log, và firewall event.
8. Kiểm chứng trước khi bạn phụ thuộc vào nó
Đừng ship một chính sách tài chính trên niềm tin. Cả hai mặt phẳng đều có một sandbox không persist gì và không dispatch gì:- Guardrails → Test — dán một mẫu, chọn một stage, xem verdict và văn bản đã render (đã mask).
- Firewall → Test (Developer+) — dry-run một cuộc gọi tool mẫu và xem verdict, quy tắc đã khớp, và lý do.
retry_loop, và các
đường tool chưa từng thấy — chính xác là các tín hiệu đi trước một sự cố tài
chính.
Tóm lại
Baseline Secure Agents
tight cụ thể hóa cái gì, và cách mô phỏng trước khi áp dụng.Firewall rules
Predicate argument, cost cap, egress, và chuỗi chuyên sâu.
Bằng chứng SOC 2
Biến các kiểm soát đã cụ thể hóa thành một artifact audit đã ký.
Ghi log an toàn PII
Giữ dữ liệu thẻ và tài khoản khỏi request log của bạn.
Chế độ thực thi
Observe → shadow → enforce, triển khai an toàn cho các tool chuyển tiền.
Cuộc gọi tool nguy hiểm
Mối đe dọa mà tool allow-list của một agent tài chính phòng thủ chống lại.
