Firewall thấy egress chỉ cho các đích đến được định tuyến qua
gateway qua đường MCP dispatch hoặc evaluate hook. Một tool mà agent
của bạn thực thi hoàn toàn bên trong tiến trình của chính nó nằm ngoài
tầm nhìn của nó. Định tuyến các lời gọi tool network-bound của agent
qua gateway và chúng được quản lý.
1. Cách cuộc tấn công hoạt động
Con đường chuẩn qua agent chạy trong ba bước:- Injection — agent đọc nội dung không đáng tin mang hướng dẫn nhúng (trang web, tài liệu được fetch, ghi chú CRM).
- Thu thập — hướng dẫn bị tiêm nhiễm nói agent thu thập tài liệu nhạy cảm — API key, dòng database, user PII — dùng các tool nó đã có.
- Exfiltration — agent được nói gửi tài liệu đó ra ngoài qua tool
có hình dạng fetch:
http_fetch,web_search,fetch_url, hoặcrequest. Đích đến do kẻ tấn công kiểm soát.
169.254.169.254 (cloud metadata), Redis port
nội bộ, hoặc dịch vụ private khác. Xem
Prompt injection để biết bước
injection; trang này tập trung vào bước mạng.
2. Egress allow-list — khóa đích đến đi ra ngoài
Phòng thủ bền vững nhất là egress allow-list: liệt kê các host mà agent hợp pháp được phép kết nối và từ chối mọi thứ khác. Một quy tắc egress dùngstage: egress và trường egress. Verdict
kiểm soát cực tính — allow pass các đích đến đã liệt kê; một catch-all
deny priority thấp hơn block phần còn lại:
169.254.169.254 được trả về bởi
DNS vẫn bị bắt bởi mục deny CIDR 10.0.0.0/8. Một cuộc gọi bị block
trả về HTTP 400 với mã lỗi firewall_blocked.
Để từ chối dải đã biết xấu mà không có allow list tường minh, viết quy
tắc deny egress nhắm vào cloud metadata endpoint (169.254.169.254)
và dải private RFC-1918 (10.0.0.0/8, 172.16.0.0/12,
192.168.0.0/16). Xếp chồng allow-list của bạn lên trên ở số priority
thấp hơn để quy tắc deny được đánh giá trước.
3. Block các tool có hình dạng fetch tại tầng tên
Trước khi một đích đến egress được đánh giá, bạn có thể loại bỏ hoàn toàn khả năng. Autonomy leveltight từ chối http_fetch, web_search,
fetch_url, và request theo tool-name glob như backstop SSRF và
exfiltration. Nếu agent của bạn không cần bất kỳ tool nào trong số đó,
tight loại bỏ bề mặt tấn công trong một bước:
tight, viết
quy tắc deny bề mặt inbound. inbound block tool trước khi mô hình
có thể chọn nó — agent không bao giờ nhận được khả năng trong danh
sách tool của nó:
4. Guardrail Secrets Blocker — ngăn credential tại prompt
Guardrail Secrets Blocker chạy ở giai đoạn input, quét prompt để tìm AWS-style access key, OpenAI key, Anthropic key, GitHub token, và các pattern credential tương tự trước khi request rời gateway. Nếu một secret được phát hiện, request bị block — credential không bao giờ đến mô hình và không bao giờ xuất hiện trong lời gọi tool. Bật nó từ panel Guardrails, hoặc như một phần của autonomy leveltight. Nó độc lập với quy tắc egress firewall.
| Mối đe dọa | Lớp ngăn chặn nó |
|---|---|
| Prompt mang API key | Secrets Blocker (input guardrail) |
| Agent gọi fetch tool đến host kẻ tấn công | Quy tắc egress allow/deny |
| Tool có hình dạng fetch được quảng bá cho mô hình | Quy tắc inbound deny hoặc autonomy tight |
| Agent kết nối cloud metadata hoặc RFC-1918 | Quy tắc egress deny liệt kê các CIDR đó |
5. Triển khai với shadow mode
Nếu bạn không chắc host nào mà agent của bạn hợp pháp kết nối ngày nay, bắt đầu ở shadow mode trước khi thực thi:- Tạo quy tắc egress với allow list dự định của bạn và đặt
shadow_mode: truetrên chính sách. - Xem feed Events — các cuộc gọi sẽ bị block xuất hiện là
[shadow] would denyvới đích đến. - Điều chỉnh danh sách
allowcho đến khi chỉ các đích đến có thể tiếp cận bởi kẻ tấn công sẽ bị từ chối, rồi tắt shadow mode để bắt đầu thực thi.
6. Tiếp theo
Tham chiếu Firewall rules
Ngôn ngữ so khớp hoàn chỉnh — danh sách egress, CIDR, argument
clause, và tất cả verdict.
Tổng quan Agent Firewall
Chính sách, bề mặt, autonomy level, và khả năng quan sát.
Prompt injection
Bước injection hướng agent đến exfiltration.
MCP tool poisoning
Các tool MCP độc hại đăng ký khả năng có hình dạng fetch.
