Mọi thứ ở đây liên kết với workspace của bạn và được cấu hình từ
console. Agent của bạn vẫn gọi
https://api.orcarouter.ai/v1/... với cùng
key sk-orca-... — chỉ có chính sách trong gateway thay đổi. Các hành động
cấu hình cần các vai trò được nêu theo từng bước; các cuộc gọi relay dùng
key có phạm vi giới hạn. Firewall chỉ thấy egress cho các đích đến được định
tuyến qua gateway (đường dispatch MCP hoặc evaluate hook) — định tuyến các
cuộc gọi tool gắn-với-mạng của bạn qua nó và chúng được quản lý.1. Ba lớp ngăn ai data exfiltration
Mỗi lớp bắt cuộc tấn công ở một điểm khác trong vòng đời request. Xếp chồng cả ba — chúng độc lập và bổ trợ.Thông tin xác thực trong prompt
Một secret được dán vào (hoặc kéo vào) request được bắt ở stage input
bởi guardrail Secrets Blocker — trước khi bất kỳ mô hình nào thấy.
Secret trong tool args
Một mô hình phát ra một cuộc gọi tool mang một thông tin xác thực được
làm sạch bởi một quy tắc firewall sanitize, redact argument đã khớp.
Đích đến đi ra ngoài
Bước mạng thực tế bị giới hạn bởi một allow-list egress — chỉ các
host được liệt kê đi qua; mọi thứ khác bị deny.
2. Dừng thông tin xác thực tại prompt — guardrail Secrets Blocker
Điều đầu tiên cần khóa là chính thông tin xác thực. Guardrail Secrets & API-Key Blocker chạy ở stage input và quét request tìm các pattern thông tin xác thực — access key kiểu AWS, key OpenAI, JWT, và các token tương tự — trước khi request rời gateway. Khi khớp, request bị block: thông tin xác thực không bao giờ đến được một mô hình và không bao giờ rơi vào một cuộc gọi tool. Trong console, mở Guardrails → New guardrail (vai trò Developer; đọc và sandbox Test mở cho mọi thành viên), đặt tên nó làexfil-shield,
và áp dụng preset Secrets & API-Key Blocker từ thư viện template (danh
mục secrets). Preset gieo ba quy tắc block regex stage input, mỗi cái
cho một hình dạng thông tin xác thực — AWS access key, key kiểu OpenAI, và
GitHub token:
guardrail_blocked, tốn no
quota (một block stage input kích hoạt trước khi đo lường), và được đánh
dấu skip-retry. Chứng minh nó trong tab Test — dán một AWS key mẫu,
chọn stage input, và xác nhận verdict — trước khi bạn gắn một key.
3. Sanitize secret khỏi argument cuộc gọi tool
Một guardrail sàng lọc prompt; nó không thấy các cuộc gọi tool mà một mô hình phát ra. Khi mô hình tạo ra mộttool_call mà argument của nó mang
một thông tin xác thực, một quy tắc firewall sanitize bắt nó. Sanitize
redact các chuỗi con đã khớp khỏi argument của cuộc gọi tool và chuyển
tiếp cuộc gọi đã làm sạch — tool chạy, nhưng với secret bị loại bỏ.
Trong Firewall → Policies → New policy (vai trò Developer), đặt tên
nó là exfil-firewall và thêm một quy tắc sanitize trên bề mặt response
— các tool_calls mà mô hình phát ra trong câu trả lời của nó:
4. Khóa các đích đến đi ra ngoài — allow-list egress
Phòng thủ bền vững nhất là chính ranh giới mạng: liệt kê các host mà agent của bạn được phép vươn tới một cách hợp lệ và deny mọi thứ khác. Một quy tắc egress dùngstage: egress và trường egress; verdict đặt cực tính —
allow cho các đích đến được liệt kê đi qua và một catch-all deny ưu tiên
thấp hơn block phần còn lại.
Thêm các quy tắc này vào cùng chính sách exfil-firewall:
169.254.169.254) và các dải riêng tư RFC-1918
(10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16). Một cuộc gọi bị từ chối
trả về HTTP 400 firewall_blocked.
Không preset nào cung cấp các quy tắc egress CIDR — bạn tự soạn các mục
allow và deny host/CIDR. Cấp độ tự chủ
tight
autonomy level là con đường
nhanh kề bên: nó deny các tên tool dạng fetch
(http_fetch, web_search, fetch_url, request) thẳng thừng, loại bỏ
khả năng mạng trước khi một đích đến từng được đánh giá. Dùng nó khi agent
của bạn hoàn toàn không cần các tool đó.5. Gắn một key có phạm vi giới hạn
Một chính sách chỉ thực thi trên các key phân giải về nó. Cho agent key riêng của nó, có phạm vi tối thiểu cần thiết — không bao giờ là key toàn tài khoản của bạn. Trong API Keys → New key (vai trò Developer):Gắn cả hai chính sách
Gắn cả hai chính sách
Chọn
exfil-shield từ dropdown Guardrail (đặt guardrail_id) và
exfil-firewall từ dropdown Firewall policy (đặt
firewall_policy_id). Cả hai liên kết nằm trên key trong gateway. Một
liên kết guardrail tường minh không bao giờ âm thầm fallback — vô hiệu
hóa nó là công tắc tắt. Một chính sách firewall bị vô hiệu hóa, ngược
lại, fallback về chính sách mặc định của workspace.Giới hạn bán kính sát thương
Giới hạn bán kính sát thương
Đặt
credit_limit_usd thành một mức trần hợp lý (0 = không giới hạn)
để một key bị xâm phạm không thể rút cạn quota, và allow_ips thành
các IP egress của backend bạn nếu agent gọi từ một server cố định. Đặt
một expired_time cho các key tạm thời (-1 = không bao giờ hết hạn).exfil-shield và mọi cuộc gọi tool qua exfil-firewall mà
không có code nào nhận thức rằng việc thực thi đang diễn ra.
6. Triển khai với shadow mode, rồi theo dõi
Nếu bạn chưa biết mọi host mà agent của bạn vươn tới một cách hợp lệ, đừng thực thi mù — quan sát trước. Xem chế độ thực thi cho con đường observe → shadow → enforce đầy đủ.Shadow các quy tắc egress
Đặt
shadow_mode: true trên exfil-firewall. Mọi verdict thực thi bị
hạ cấp thành audit và ghi log như [shadow] would deny với đích đến.
Không traffic nào bị block trong khi shadow mode đang bật.Theo dõi các feed
Firewall → Events / Runs (Developer+) hiển thị mọi cuộc gọi tool và
đích đến egress mà agent của bạn chạm tới và những gì sẽ bị deny.
Guardrails → Matches (mọi Member) hiển thị mọi secret mà input
guardrail bắt được. Tinh chỉnh danh sách
allow egress cho đến khi chỉ
các host kẻ-tấn-công-có-thể-tiếp-cận sẽ bị deny.Feed Matches ghi lại chuỗi con đã khớp chỉ khi Log raw content được
bật cho guardrail (tắt theo mặc định — tư thế bảo thủ về quyền riêng tư).
Đánh dấu một false positive (Admin) để tinh chỉnh chính sách. Mọi thay
đổi guardrail ghi một hàng version-history mà bạn có thể diff và revert; các
thay đổi chính sách firewall được ghi lại trong audit trail.
7. Độ phủ tổng quan
| Bước exfiltration | Lớp dừng nó |
|---|---|
| Thông tin xác thực đi vào request | Guardrail Secrets Blocker (input) |
| Mô hình phát ra một cuộc gọi tool mang một secret | Quy tắc firewall sanitize (bề mặt response) |
| Tool quay số tới một host của kẻ tấn công | Quy tắc egress allow / deny |
| Agent vươn tới cloud metadata hoặc RFC-1918 | Quy tắc egress deny liệt kê các CIDR đó |
| Tool dạng fetch được cung cấp cho mô hình | Cấp độ tự chủ tight (deny tên tool) |
8. Đi tiếp ở đâu
Tham chiếu firewall rules
Ngôn ngữ so khớp đầy đủ — danh sách egress, CIDR, bộ sanitize, và mọi
verdict.
Mối đe dọa exfiltration dữ liệu
Giải phẫu tấn công mà công thức này phòng thủ chống lại, từ đầu đến cuối.
Gia cố một MCP agent
Quản lý mọi
tools/call mà một agent dispatch qua một MCP server.Ghi log an toàn PII
Giữ dữ liệu nhạy cảm khỏi request log và feed Matches của bạn.
