shell.exec, truy vấn một cơ sở dữ liệu, fetch một URL, dispatch một tool
qua một MCP server. Mỗi cái trong số đó là một hành động ngoài đời thực mà
guardrails ở tầng prompt không thể
thấy. Agent firewall là mặt phẳng ở tầng hành động kiểm soát chúng:
một chính sách có tên, theo phạm vi workspace mà gateway đánh giá trên mọi
cuộc gọi tool, trước khi nó đến được tool.
Trang này là trung tâm cho phần Firewall — mô hình chính sách, các verdict,
các bề mặt, và cách một chính sách gắn vào một key. Mỗi nhánh đi sâu hơn,
và tham chiếu engine đầy đủ nằm ở Firewall và
Quy tắc Firewall.
1. Agent firewall làm gì
Bạn soạn một chính sách một lần trong console workspace, gắn một API key vào nó (hoặc đặt một cái làm mặc định của workspace), và từ đó về sau mọi cuộc gọi tool mà key đó phát ra đều được kiểm tra đối với chính sách tại gateway. Không triển khai lại, không đổi code agent — agent của bạn vẫn phát ra các cuộc gọi tool y như trước, và việc chỉnh sửa chính sách có hiệu lực ở lần gọi kế tiếp cho mọi key gắn với nó. Một chính sách là một danh sách quy tắc có thứ tự. Mỗi quy tắc quyết định nó áp dụng cho những cuộc gọi tool nào và làm gì với chúng. Engine duyệt các quy tắc theo thứ tự ưu tiên, match đầu tiên thắng, và fallback về verdict mặc định của chính sách nếu không có gì khớp.Phát hiện diễn ra ở gateway, ở lần dùng đầu tiên — không phải lúc cài đặt.
Một tool, MCP server, hoặc skill mà một agent tự cài đặt được bắt ở lần đầu
tiên cuộc gọi của nó vượt qua gateway. Đó là điểm nghẽn duy nhất thấy mọi
provider, mọi agent, và mọi cuộc gọi tool bất kể khả năng đó đến đó bằng
cách nào.
2. Một ví dụ cụ thể
Giả sử bạn muốn block các lệnh shell phá hủy nhưng cho mọi thứ khác đi qua dưới audit. Trong console bạn tạo một chính sách vớidefault_verdict = audit và một quy tắc:
args_match_json là một chuỗi được mã hóa JSON (gateway validate nó đối
với schema mệnh đề khi lưu): path là một JSONPath vào argument của cuộc
gọi, op là một trong eq, contains, regex, in, cidr_match, gt,
lt.
Gắn một key vào chính sách (đặt firewall_policy_id trên key). Giờ khi một
agent phát ra shell.exec với command: "rm -rf /", gateway trả về
HTTP 400 với mã lỗi firewall_blocked và một lý do nêu tên tool — và
cuộc gọi không bao giờ đến được shell. Mọi cuộc gọi tool khác đều được cho
phép và ghi lại để xem xét.
3. Chính sách, quy tắc, và phân giải
Một chính sách theo phạm vi workspace và có tên, vớienabled,
is_default, một default_verdict (allow / audit / deny, mặc định
audit), và một cờ shadow_mode. Một quy tắc là một kiểm tra bên
trong nó — xem Tạo một chính sách và
Rule schema.
Với bất kỳ cuộc gọi tool nào, gateway phân giải chính sách đang hoạt động
theo thứ tự:
- Liên kết key —
firewall_policy_idcủa key đang gọi, khi chính sách đó tồn tại và được bật. - Mặc định workspace — ngược lại, chính sách
is_defaultđã bật.
firewall_observe_mode của workspace: với observe mode bật, cuộc gọi
được cho phép nhưng được ghi log như một khoảng trống độ phủ (nó xuất
hiện trong Discovered Tools); với nó tắt, cuộc gọi được cho phép một cách
im lặng.
4. Verdict
Một quy tắc — hoặc mặc định — tạo ra một trong các giá trị:| Verdict | Nó làm gì |
|---|---|
allow | Cho đi qua, được ghi log. |
audit | Cho phép + ghi lại để xem xét. Mặc định thông thường. |
deny | Block. HTTP 400 firewall_blocked trên inbound; lỗi tool trên MCP. |
sanitize | Redact các chuỗi con đã khớp khỏi argument của tool và chuyển tiếp. |
pending_approval | Giữ lại cho một con người; HTTP 400 firewall_approval_pending. |
cap_cost | Deny một khi mức chi tiêu của lần chạy vượt qua một mức trần theo từng quy tắc. |
sanitize chỉ redact argument của cuộc gọi — không bao giờ
nội dung mà một tool trả về. Trên bề mặt inbound, nơi chưa có argument
tại thời điểm gọi, sanitize leo thang thành một block. Xem
Verdict và
Sanitize phản hồi.
5. Bốn bề mặt thực thi
Mỗi cuộc gọi tool được đánh giá đối với đúng một bề mặt — ghim một quy tắc vào một bề mặt bằng trườngstage, hoặc để trống để áp dụng cho tất cả.
inbound
Các tool mà một agent quảng bá tới mô hình trên request. Block một tool
nguy hiểm trước khi mô hình kịp chọn nó.
response
Các
tool_calls mà mô hình phát ra trong câu trả lời của nó.mcp
Một
tools/call được dispatch qua MCP gateway. Xem
MCP server.egress
Một host / IP / CIDR đi ra ngoài mà một tool vươn tới — bề mặt SSRF và
rò rỉ dữ liệu.
6. So khớp
Các quy tắc diễn đạt những cuộc gọi tool nào chúng bắt bằng một bộ từ vựng nhỏ, xác định, an toàn trên hot path:Glob tên tool & skill
Glob tên tool & skill
Một glob phân biệt chữ hoa-thường trên tên tool (
shell.*, *.delete),
tùy chọn AND với một glob trên skill sở hữu. Xem
Cú pháp glob và
Allow-list tool.Mệnh đề argument
Mệnh đề argument
Các predicate JSONPath trên argument của cuộc gọi với các toán tử
eq,
contains, regex, in, cidr_match, gt, lt — sự khác biệt giữa
“block shell.exec” và “block nó chỉ khi lệnh là rm -rf”. Các mệnh đề
fail closed (quy tắc, không phải request). Xem
Validate argument.Danh sách egress
Danh sách egress
Danh sách allow và deny host / IP / CIDR trên bề mặt
egress. Bạn có
thể tự soạn quy tắc deny của mình cho cloud-metadata hoặc các dải
RFC-1918. Xem Kiểm soát egress.Chuỗi & mức trần chi phí
Chuỗi & mức trần chi phí
Một quy tắc
sequence khớp một chuỗi cuộc gọi có thứ tự qua một cửa sổ
(thực thi phản ứng); một quy tắc cap_cost deny một khi mức chi tiêu
tích lũy của một lần chạy agent vượt qua một mức trần tính bằng cents.
Xem Quy tắc chuỗi và
Giới hạn chi phí.7. Phê duyệt bởi con người, tự chủ, và bất thường
- Human-in-the-loop. Một verdict
pending_approvalgiữ cuộc gọi lại và trả về approval id của nó. Một reviewer giải quyết nó trong console (Developer+) hoặc qua một webhook callback ký HMAC; agent poll và gửi lại với một headerX-OrcaRouter-Firewall-Approvaldùng một lần. Xem Phê duyệt và Webhook phê duyệt. - Cấp độ tự chủ. Một công tắc đặt toàn bộ tư thế của bạn:
tight(default-deny + deny destructive shell + deny các tool dạng fetch (http_fetch/web_search/fetch_url/request, vector SSRF) + thực thi PII Shield + Secrets Blocker),balanced(audit mặc định, deny destructive shell, PII Shield chỉ audit), hoặcpermissive(chỉ observe). Mỗi cái ghi ra các hàng chính sách và guardrail thực, có thể chỉnh sửa, với hoàn tác một cú nhấp từ snapshot audit. - Phát hiện bất thường. Vượt ra ngoài các quy tắc tĩnh, firewall chấm
điểm việc dùng tool đối với một baseline giờ-trong-tuần đã học (14 ngày)
và gắn cờ các spike tốc độ/chi phí,
retry_loop, vànovel_pathtrên một feed mà Member có thể đọc, bạn có thể snooze lên đến 7 ngày.
8. Firewall nằm ở đâu
Firewall là đối tác ở tầng hành động của hai mặt phẳng kề bên:| Mặt phẳng | Kiểm soát | Khi nào dùng |
|---|---|---|
| Guardrails | Văn bản prompt & response | PII, secrets, jailbreak, ý định injection |
| Agent firewall | Hành động tool | Tool nào, cuộc gọi MCP, host, và chi phí |
| Compliance | Bằng chứng & framework | Sẵn sàng SOC 2 / HIPAA / EU AI Act |
9. Gắn và kết nối
Một chính sách liên kết với một key quafirewall_policy_id (cấu hình
trong console; liên kết nằm trên key trong gateway). Hai cách để một cuộc
gọi tool đến được engine, cả hai đều yêu cầu một key có phạm vi
firewall-gateway (is_firewall_gateway = true) — một key relay thông
thường nhận 403 trên các route này:
- MCP gateway — trỏ MCP client của bạn vào endpoint hợp nhất
ANY /api/v1/firewall/mcp; mỗitools/callđược đánh giá inline. Xem MCP server. - Evaluate hook — gọi
POST /api/v1/firewall/evaluate(hoặc/evaluate_plancho một kế hoạch nhiều bước) từ vòng lặp agent của riêng bạn trước khi dispatch, và hành động dựa trên verdict.
/api/workspace/firewall/*. Đọc chính sách, cài đặt, discovered tools, bộ
mô phỏng tự chủ chỉ-đọc, và feed bất thường mở cho mọi thành viên workspace;
sandbox Test dry-run, log Events / Runs, và mọi thao tác ghi yêu cầu
Developer+. Xem Gateway key và
Test quy tắc.
10. Các mối đe dọa mặt phẳng này giải quyết
Cuộc gọi tool nguy hiểm
Deny destructive shell, DB drop, và các động từ rủi ro theo glob + args.
Rò rỉ dữ liệu
Danh sách egress và quy tắc chuỗi read-then-export.
MCP tool poisoning
Đánh giá theo từng cuộc gọi trên bề mặt
mcp trước khi dispatch.Excessive agency
Phê duyệt, mức trần chi phí, và tư thế default-deny.
Các bước tiếp theo
Tạo một chính sách
Soạn chính sách và quy tắc đầu tiên của bạn.
Verdict
Mỗi verdict làm gì trên đường truyền.
Log sự kiện
Đọc firewall đã quyết định gì và tại sao.
