Mô hình đe dọa AI agent

Một chatbot tạo ra văn bản và một con người đọc nó. Một AI agent đọc các trang web không đáng tin cậy, thực thi lời gọi tool, kết nối với các dịch vụ nội bộ, và cài đặt các khả năng mà nó tìm thấy lúc runtime — thường không có con người giám sát. Sự khác biệt về bề mặt tấn công đó là sự khác biệt giữa vấn đề text-moderation và vấn đề attack-surface đầy đủ. Trang này lập danh mục các lớp mối đe dọa mà agent của bạn phải đối mặt và ánh xạ mỗi cái tới kiểm soát OrcaRouter chống lại nó. Đây là hub cho phần Threats; mỗi hàng liên kết đến một trang đào sâu. Để biết chính các kiểm soát, xem Control stack và Bảo mật AI agent với OrcaRouter.

1. Tại sao agent có bề mặt tấn công lớn hơn chatbot

Ba thuộc tính cấu trúc của agent làm thay đổi hồ sơ rủi ro: Chúng hành động. Phản hồi chatbot chứa văn bản có hại thì tệ. Lời gọi tool đến shell.exec xóa cơ sở dữ liệu, hoặc lời gọi payment API mà kẻ tấn công thúc đẩy qua prompt injection, thì tệ hơn — và thường không thể đảo ngược. Blast radius của một agent bị xâm phạm không bị giới hạn bởi những gì con người chọn làm với văn bản; nó bị giới hạn bởi những tool mà agent có thể kết nối. Chúng tiếp nhận nội dung không đáng tin cậy. Agent truy xuất tài liệu, scrape trang web, đọc email, và xử lý kết quả tool — tất cả đều có thể chứa các hướng dẫn đối nghịch nhắm vào chính agent đó. Một content filter chỉ sàng lọc những gì người dùng gõ bỏ lỡ mọi thứ bị tiêm nhiễm trong ngữ cảnh. Chúng tự mở rộng. Một agent framework tự động cài đặt skill và MCP server thay mặt cho mô hình có thể nạp các khả năng mà bạn chưa bao giờ xem xét, bao gồm những cái có định nghĩa tool độc hại được thiết kế để trông hợp lệ. Cuộc tấn công có thể đến như một tool mới mà mô hình quyết định sử dụng — không phải là prompt mà người dùng gõ.

2. Bản đồ mối đe dọa-phòng thủ

Mười lớp mối đe dọa mà một agent phải đối mặt trong production, mỗi cái được ánh xạ tới kiểm soát OrcaRouter chống lại nó. Mở rộng bất kỳ mối đe dọa nào để biết cơ chế và phòng thủ.

Mọi phòng thủ ở đây đều được cấu hình từ console workspace hoặc API của bạn — không cần thay đổi code agent. Thực thi nằm ở gateway.

Prompt injection — trực tiếp

Cách hoạt động: message người dùng (hoặc developer prompt) mang theo hướng dẫn chiếm đoạt mô hình — ghi đè system prompt, exfiltrate session, mở khóa khả năng bị hạn chế.Phòng thủ: Preset Safety Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) sàng lọc văn bản input và block hoặc flag khi khớp trước khi đến mô hình. Prompt injection →

Prompt injection — gián tiếp

Cách hoạt động: một tài liệu được truy xuất, trang web, kết quả tool, hoặc phản hồi MCP nhúng hướng dẫn mà mô hình coi là ngữ cảnh tin tưởng (“email lịch người dùng đến attacker.com”).Phòng thủ: Guardrails giai đoạn output bắt các hướng dẫn xuất hiện trong phản hồi; Agent Firewall chặn lời gọi tool hoặc đích đến egress mà injection cố gắng kích hoạt. Prompt injection →

Jailbreak & lách tránh guardrail

Cách hoạt động: cụm từ đối nghịch, khung roleplay, thủ thuật mã hóa, và leo thang nhiều lượt để bypass an toàn huấn luyện hoặc quy tắc.Phòng thủ: Preset Safety Guardrails kết hợp quy tắc keyword/regex với quy tắc llm_judge bắt được lách tránh ngữ nghĩa mà regex không thể — first match wins. Jailbreak →

Phơi lộ dữ liệu nhạy cảm & PII

Cách hoạt động: PII (email, phone, SSN, thẻ) vào hoặc ra trong prompt hoặc output của mô hình.Phòng thủ: Quy tắc pii của Guardrails phát hiện và mask (hoặc block) các entity built-in và tùy chỉnh trên input và output — [EMAIL], [SSN], [CREDIT_CARD] thay thế match trước khi thượng nguồn thấy chúng. Guardrails →

Rò rỉ secret & credential

Cách hoạt động: API key, cloud credential, JWT, hoặc private key xuất hiện trong prompt, đối số tool, hoặc output mô hình.Phòng thủ: Guardrail Secrets Blocker block pattern credential trong request trước khi chúng rời đi; verdict sanitize của firewall redact các chuỗi con đã khớp khỏi đối số lời gọi tool. Guardrails →

Lời gọi tool nguy hiểm & trái phép

Cách hoạt động: agent gọi các tool phá hủy (shell.exec, db.delete), tool mà nó không bao giờ nên có, hoặc tool hợp lệ với đối số nguy hiểm.Phòng thủ: Agent Firewall khớp trên tool-name glob, argument clause, và bề mặt — deny block, sanitize loại bỏ đối số xấu, pending_approval giữ lại để có con người xem xét. Lời gọi tool nguy hiểm →

Giả mạo phản hồi tool

Cách hoạt động: một tool độc hại trả về phản hồi mang theo hướng dẫn bị tiêm nhiễm hoặc dữ liệu giả mạo để chiếm đoạt bước tiếp theo của agent.Phòng thủ: Guardrails giai đoạn output sàng lọc phản hồi tiếp theo của mô hình sau khi nó xử lý kết quả tool; firewall audit phát hiện các pattern bất thường trong feed event. Lời gọi tool nguy hiểm →

Data exfiltration qua mạng

Cách hoạt động: agent fetch URL của kẻ tấn công hoặc kết nối dịch vụ nội bộ, mã hóa dữ liệu trong path/query. Vector SSRF và exfiltration.Phòng thủ: Bề mặt egress của Agent Firewall khớp trên host/IP/CIDR — một allow-list từ chối mọi đích đến không được tường minh cho phép, trước khi cuộc gọi rời gateway. Data exfiltration →

MCP tool poisoning & rug-pull

Cách hoạt động: một MCP server độc hại quảng bá các tool nghe có vẻ hợp lệ với implementation có hại, hoặc thay đổi tool sau khi bạn kết nối (rug-pull).Phòng thủ: MCP gateway đánh giá mọi tools/call đối với chính sách của bạn trước khi dispatch; skill scanning gán band rủi ro và chế độ quarantine giữ cuộc gọi từ skill rủi ro để phê duyệt. MCP tool poisoning →

Excessive agency & confused deputy

Cách hoạt động: một agent nắm giữ nhiều khả năng hơn nhiệm vụ của nó cần, nên một xâm phạm có blast radius lớn — hoặc nó bị lừa dùng quyền hạn của mình thay mặt kẻ tấn công.Phòng thủ: Scoped key cho mỗi agent danh tính tối thiểu quyền (mô hình cụ thể, IP, giới hạn chi tiêu, hết hạn); chính sách firewall tight default-deny mọi thứ không được tường minh cho phép. Excessive agency →

Chi phí mất kiểm soát & denial-of-wallet

Cách hoạt động: vòng lặp injection, retry-storm, hoặc tác vụ agent dài tốn quota và chi tiêu vượt xa ý định.Phòng thủ: Verdict cap_cost của firewall từ chối cuộc gọi một khi chi tiêu của lần chạy vượt qua giới hạn cents của bạn; scoped key mang giới hạn chi tiêu theo từng key; phát hiện bất thường flag spike chi phí. Excessive agency →

3. Tóm tắt control stack

Mọi phòng thủ trong bảng trên đều là một lớp trong cùng stack có thứ tự. Hiểu cách chúng kết hợp là chìa khóa để áp dụng chúng đúng cách.

Lớp	Những gì nó quản lý	Kích hoạt khi
Scoped key	Danh tính — mô hình, IP, giới hạn chi tiêu, hết hạn, và chính sách nào ràng buộc	Mọi request, trước khi bất kỳ nội dung nào được đọc
Guardrails	Nội dung — văn bản prompt và phản hồi	Giai đoạn input (trước mô hình) và giai đoạn output (sau khi mô hình phản hồi)
Agent Firewall	Hành động — lời gọi tool, MCP dispatch, đích đến egress	Trên mọi lời gọi tool / đích đến đi ra ngoài, trên bề mặt nó được phát hiện
Audit	Quy gán — mọi match, verdict, phê duyệt, và thay đổi chính sách	Sau mọi quyết định, tương quan với lần chạy agent

Các lớp độc lập và cộng dồn — một request đi qua tất cả bốn. Autonomy level (tight / balanced / permissive) cấu hình Guardrails và Firewall cùng nhau trong một bước, nên bạn không cần tinh chỉnh chúng riêng biệt để có tư thế nhất quán. Để xem từng bước cách một request duy nhất đi qua cả bốn lớp, xem Control stack.

4. Chọn đúng lớp cho một mối đe dọa

Một số mối đe dọa yêu cầu một lớp; một số khác yêu cầu hai lớp hoạt động cùng nhau. Quyết định nhanh:

Văn bản trong prompt hoặc phản hồi là bề mặt tấn công — chọn Guardrails trước (preset keyword, regex, PII, LLM judge).
Lời gọi tool hoặc request đi ra ngoài là bề mặt tấn công — chọn Agent Firewall (bề mặt inbound/response/mcp/egress, verdict deny/sanitize/pending_approval/cap_cost).
Cả văn bản và hành động — xếp chồng chúng. Hướng dẫn bị tiêm nhiễm kích hoạt guardrail trên input; lời gọi tool mà injection cố gắng thúc đẩy kích hoạt quy tắc firewall trên hành động.
Danh tính và phạm vi — dùng scoped key để ràng buộc những gì agent được phép gọi nói chung, trước khi bất kỳ quy tắc nội dung hoặc hành động nào được đánh giá.

Xem Guardrails vs. Firewall để so sánh sâu hơn.

5. Các trang mối đe dọa đào sâu

Prompt injection

Injection trực tiếp và gián tiếp — cách kẻ tấn công nhúng hướng dẫn vào nội dung không đáng tin và cách guardrail và firewall chặn chúng.

Jailbreak

Cụm từ đối nghịch và kỹ thuật lách tránh — cách quy tắc LLM judge nhận biết ngữ nghĩa bắt được những gì regex bỏ lỡ.

Lời gọi tool nguy hiểm

Tool phá hủy, tấn công đối số, và giả mạo phản hồi tool — các bề mặt và verdict firewall quản lý mỗi cái.

Data exfiltration

SSRF và network exfiltration — egress allowlist và cách firewall chặn request đi ra ngoài trước khi chúng rời gateway.

MCP tool poisoning

MCP server độc hại, rug-pull, và band rủi ro skill — MCP gateway, skill scanning, và thực thi quarantine.

Excessive agency

Agent vượt quyền, confused deputy, và denial-of-wallet — scoped key, tư thế default-deny, và cost cap.

Tham chiếu: Control stack — Guardrails — Agent Firewall — Firewall rules — MCP gateway — Skills — Scoped key — Zero trust cho AI agent

​1. Tại sao agent có bề mặt tấn công lớn hơn chatbot

​2. Bản đồ mối đe dọa-phòng thủ

​3. Tóm tắt control stack

​4. Chọn đúng lớp cho một mối đe dọa

​5. Các trang mối đe dọa đào sâu

Prompt injection

Jailbreak

Lời gọi tool nguy hiểm

Data exfiltration

MCP tool poisoning

Excessive agency

1. Tại sao agent có bề mặt tấn công lớn hơn chatbot

2. Bản đồ mối đe dọa-phòng thủ

3. Tóm tắt control stack

4. Chọn đúng lớp cho một mối đe dọa

5. Các trang mối đe dọa đào sâu