1. Tại sao agent có bề mặt tấn công lớn hơn chatbot
Ba thuộc tính cấu trúc của agent làm thay đổi hồ sơ rủi ro: Chúng hành động. Phản hồi chatbot chứa văn bản có hại thì tệ. Lời gọi tool đếnshell.exec xóa cơ sở dữ liệu, hoặc lời gọi payment API
mà kẻ tấn công thúc đẩy qua prompt injection, thì tệ hơn — và thường
không thể đảo ngược. Blast radius của một agent bị xâm phạm không bị
giới hạn bởi những gì con người chọn làm với văn bản; nó bị giới hạn
bởi những tool mà agent có thể kết nối.
Chúng tiếp nhận nội dung không đáng tin cậy. Agent truy xuất tài
liệu, scrape trang web, đọc email, và xử lý kết quả tool — tất cả đều
có thể chứa các hướng dẫn đối nghịch nhắm vào chính agent đó. Một
content filter chỉ sàng lọc những gì người dùng gõ bỏ lỡ mọi thứ bị
tiêm nhiễm trong ngữ cảnh.
Chúng tự mở rộng. Một agent framework tự động cài đặt skill và MCP
server thay mặt cho mô hình có thể nạp các khả năng mà bạn chưa bao giờ
xem xét, bao gồm những cái có định nghĩa tool độc hại được thiết kế để
trông hợp lệ. Cuộc tấn công có thể đến như một tool mới mà mô hình
quyết định sử dụng — không phải là prompt mà người dùng gõ.
2. Bản đồ mối đe dọa-phòng thủ
Mười lớp mối đe dọa mà một agent phải đối mặt trong production, mỗi cái được ánh xạ tới kiểm soát OrcaRouter chống lại nó. Mở rộng bất kỳ mối đe dọa nào để biết cơ chế và phòng thủ.Mọi phòng thủ ở đây đều được cấu hình từ console workspace hoặc API
của bạn — không cần thay đổi code agent. Thực thi nằm ở gateway.
Prompt injection — trực tiếp
Prompt injection — trực tiếp
Cách hoạt động: message người dùng (hoặc developer prompt) mang
theo hướng dẫn chiếm đoạt mô hình — ghi đè system prompt, exfiltrate
session, mở khóa khả năng bị hạn chế.Phòng thủ: Preset Safety Guardrails (Prompt-Injection Basics,
jailbreak, system-prompt-leak) sàng lọc văn bản input và block hoặc
flag khi khớp trước khi đến mô hình.
Prompt injection →
Prompt injection — gián tiếp
Prompt injection — gián tiếp
Cách hoạt động: một tài liệu được truy xuất, trang web, kết quả
tool, hoặc phản hồi MCP nhúng hướng dẫn mà mô hình coi là ngữ cảnh
tin tưởng (“email lịch người dùng đến attacker.com”).Phòng thủ: Guardrails giai đoạn output bắt các hướng dẫn
xuất hiện trong phản hồi; Agent Firewall chặn lời gọi tool hoặc
đích đến egress mà injection cố gắng kích hoạt.
Prompt injection →
Jailbreak & lách tránh guardrail
Jailbreak & lách tránh guardrail
Cách hoạt động: cụm từ đối nghịch, khung roleplay, thủ thuật mã
hóa, và leo thang nhiều lượt để bypass an toàn huấn luyện hoặc quy
tắc.Phòng thủ: Preset Safety Guardrails kết hợp quy tắc
keyword/regex với quy tắc
llm_judge bắt được lách tránh ngữ nghĩa
mà regex không thể — first match wins.
Jailbreak →Phơi lộ dữ liệu nhạy cảm & PII
Phơi lộ dữ liệu nhạy cảm & PII
Cách hoạt động: PII (email, phone, SSN, thẻ) vào hoặc ra trong
prompt hoặc output của mô hình.Phòng thủ: Quy tắc
pii của Guardrails phát hiện và mask
(hoặc block) các entity built-in và tùy chỉnh trên input và output —
[EMAIL], [SSN], [CREDIT_CARD] thay thế match trước khi thượng
nguồn thấy chúng.
Guardrails →Rò rỉ secret & credential
Rò rỉ secret & credential
Cách hoạt động: API key, cloud credential, JWT, hoặc private key
xuất hiện trong prompt, đối số tool, hoặc output mô hình.Phòng thủ: Guardrail Secrets Blocker block pattern credential
trong request trước khi chúng rời đi; verdict
sanitize của firewall
redact các chuỗi con đã khớp khỏi đối số lời gọi tool.
Guardrails →Lời gọi tool nguy hiểm & trái phép
Lời gọi tool nguy hiểm & trái phép
Cách hoạt động: agent gọi các tool phá hủy (
shell.exec,
db.delete), tool mà nó không bao giờ nên có, hoặc tool hợp lệ với
đối số nguy hiểm.Phòng thủ: Agent Firewall khớp trên tool-name glob, argument
clause, và bề mặt — deny block, sanitize loại bỏ đối số xấu,
pending_approval giữ lại để có con người xem xét.
Lời gọi tool nguy hiểm →Giả mạo phản hồi tool
Giả mạo phản hồi tool
Cách hoạt động: một tool độc hại trả về phản hồi mang theo hướng
dẫn bị tiêm nhiễm hoặc dữ liệu giả mạo để chiếm đoạt bước tiếp theo
của agent.Phòng thủ: Guardrails giai đoạn output sàng lọc phản hồi
tiếp theo của mô hình sau khi nó xử lý kết quả tool; firewall
audit
phát hiện các pattern bất thường trong feed event.
Lời gọi tool nguy hiểm →Data exfiltration qua mạng
Data exfiltration qua mạng
Cách hoạt động: agent fetch URL của kẻ tấn công hoặc kết nối dịch
vụ nội bộ, mã hóa dữ liệu trong path/query. Vector SSRF và exfiltration.Phòng thủ: Bề mặt
egress của Agent Firewall khớp trên
host/IP/CIDR — một allow-list từ chối mọi đích đến không được tường
minh cho phép, trước khi cuộc gọi rời gateway.
Data exfiltration →MCP tool poisoning & rug-pull
MCP tool poisoning & rug-pull
Cách hoạt động: một MCP server độc hại quảng bá các tool nghe có
vẻ hợp lệ với implementation có hại, hoặc thay đổi tool sau khi bạn
kết nối (rug-pull).Phòng thủ: MCP gateway đánh giá mọi
tools/call đối với
chính sách của bạn trước khi dispatch; skill scanning gán band
rủi ro và chế độ quarantine giữ cuộc gọi từ skill rủi ro để phê
duyệt.
MCP tool poisoning →Excessive agency & confused deputy
Excessive agency & confused deputy
Cách hoạt động: một agent nắm giữ nhiều khả năng hơn nhiệm vụ
của nó cần, nên một xâm phạm có blast radius lớn — hoặc nó bị lừa
dùng quyền hạn của mình thay mặt kẻ tấn công.Phòng thủ: Scoped key cho mỗi agent danh tính tối thiểu
quyền (mô hình cụ thể, IP, giới hạn chi tiêu, hết hạn); chính sách
firewall
tight default-deny mọi thứ không được tường minh cho phép.
Excessive agency →Chi phí mất kiểm soát & denial-of-wallet
Chi phí mất kiểm soát & denial-of-wallet
Cách hoạt động: vòng lặp injection, retry-storm, hoặc tác vụ
agent dài tốn quota và chi tiêu vượt xa ý định.Phòng thủ: Verdict
cap_cost của firewall từ chối cuộc gọi một
khi chi tiêu của lần chạy vượt qua giới hạn cents của bạn; scoped key
mang giới hạn chi tiêu theo từng key; phát hiện bất thường flag spike
chi phí.
Excessive agency →3. Tóm tắt control stack
Mọi phòng thủ trong bảng trên đều là một lớp trong cùng stack có thứ tự. Hiểu cách chúng kết hợp là chìa khóa để áp dụng chúng đúng cách.| Lớp | Những gì nó quản lý | Kích hoạt khi |
|---|---|---|
| Scoped key | Danh tính — mô hình, IP, giới hạn chi tiêu, hết hạn, và chính sách nào ràng buộc | Mọi request, trước khi bất kỳ nội dung nào được đọc |
| Guardrails | Nội dung — văn bản prompt và phản hồi | Giai đoạn input (trước mô hình) và giai đoạn output (sau khi mô hình phản hồi) |
| Agent Firewall | Hành động — lời gọi tool, MCP dispatch, đích đến egress | Trên mọi lời gọi tool / đích đến đi ra ngoài, trên bề mặt nó được phát hiện |
| Audit | Quy gán — mọi match, verdict, phê duyệt, và thay đổi chính sách | Sau mọi quyết định, tương quan với lần chạy agent |
tight / balanced / permissive) cấu hình Guardrails và
Firewall cùng nhau trong một bước, nên bạn không cần tinh chỉnh chúng
riêng biệt để có tư thế nhất quán.
Để xem từng bước cách một request duy nhất đi qua cả bốn lớp, xem
Control stack.
4. Chọn đúng lớp cho một mối đe dọa
Một số mối đe dọa yêu cầu một lớp; một số khác yêu cầu hai lớp hoạt động cùng nhau. Quyết định nhanh:- Văn bản trong prompt hoặc phản hồi là bề mặt tấn công — chọn Guardrails trước (preset keyword, regex, PII, LLM judge).
- Lời gọi tool hoặc request đi ra ngoài là bề mặt tấn công — chọn Agent Firewall (bề mặt inbound/response/mcp/egress, verdict deny/sanitize/pending_approval/cap_cost).
- Cả văn bản và hành động — xếp chồng chúng. Hướng dẫn bị tiêm nhiễm kích hoạt guardrail trên input; lời gọi tool mà injection cố gắng thúc đẩy kích hoạt quy tắc firewall trên hành động.
- Danh tính và phạm vi — dùng scoped key để ràng buộc những gì agent được phép gọi nói chung, trước khi bất kỳ quy tắc nội dung hoặc hành động nào được đánh giá.
5. Các trang mối đe dọa đào sâu
Prompt injection
Injection trực tiếp và gián tiếp — cách kẻ tấn công nhúng hướng dẫn
vào nội dung không đáng tin và cách guardrail và firewall chặn chúng.
Jailbreak
Cụm từ đối nghịch và kỹ thuật lách tránh — cách quy tắc LLM judge
nhận biết ngữ nghĩa bắt được những gì regex bỏ lỡ.
Lời gọi tool nguy hiểm
Tool phá hủy, tấn công đối số, và giả mạo phản hồi tool — các bề
mặt và verdict firewall quản lý mỗi cái.
Data exfiltration
SSRF và network exfiltration — egress allowlist và cách firewall chặn
request đi ra ngoài trước khi chúng rời gateway.
MCP tool poisoning
MCP server độc hại, rug-pull, và band rủi ro skill — MCP gateway,
skill scanning, và thực thi quarantine.
Excessive agency
Agent vượt quyền, confused deputy, và denial-of-wallet — scoped key,
tư thế default-deny, và cost cap.
Tham chiếu: Control stack — Guardrails — Agent Firewall — Firewall rules — MCP gateway — Skills — Scoped key — Zero trust cho AI agent
