Chuyển đến nội dung chính
Một chatbot tạo ra văn bản và một con người đọc nó. Một AI agent đọc các trang web không đáng tin cậy, thực thi lời gọi tool, kết nối với các dịch vụ nội bộ, và cài đặt các khả năng mà nó tìm thấy lúc runtime — thường không có con người giám sát. Sự khác biệt về bề mặt tấn công đó là sự khác biệt giữa vấn đề text-moderation và vấn đề attack-surface đầy đủ. Trang này lập danh mục các lớp mối đe dọa mà agent của bạn phải đối mặt và ánh xạ mỗi cái tới kiểm soát OrcaRouter chống lại nó. Đây là hub cho phần Threats; mỗi hàng liên kết đến một trang đào sâu. Để biết chính các kiểm soát, xem Control stackBảo mật AI agent với OrcaRouter.

1. Tại sao agent có bề mặt tấn công lớn hơn chatbot

Ba thuộc tính cấu trúc của agent làm thay đổi hồ sơ rủi ro: Chúng hành động. Phản hồi chatbot chứa văn bản có hại thì tệ. Lời gọi tool đến shell.exec xóa cơ sở dữ liệu, hoặc lời gọi payment API mà kẻ tấn công thúc đẩy qua prompt injection, thì tệ hơn — và thường không thể đảo ngược. Blast radius của một agent bị xâm phạm không bị giới hạn bởi những gì con người chọn làm với văn bản; nó bị giới hạn bởi những tool mà agent có thể kết nối. Chúng tiếp nhận nội dung không đáng tin cậy. Agent truy xuất tài liệu, scrape trang web, đọc email, và xử lý kết quả tool — tất cả đều có thể chứa các hướng dẫn đối nghịch nhắm vào chính agent đó. Một content filter chỉ sàng lọc những gì người dùng gõ bỏ lỡ mọi thứ bị tiêm nhiễm trong ngữ cảnh. Chúng tự mở rộng. Một agent framework tự động cài đặt skill và MCP server thay mặt cho mô hình có thể nạp các khả năng mà bạn chưa bao giờ xem xét, bao gồm những cái có định nghĩa tool độc hại được thiết kế để trông hợp lệ. Cuộc tấn công có thể đến như một tool mới mà mô hình quyết định sử dụng — không phải là prompt mà người dùng gõ.

2. Bản đồ mối đe dọa-phòng thủ

Mười lớp mối đe dọa mà một agent phải đối mặt trong production, mỗi cái được ánh xạ tới kiểm soát OrcaRouter chống lại nó. Mở rộng bất kỳ mối đe dọa nào để biết cơ chế và phòng thủ.
Mọi phòng thủ ở đây đều được cấu hình từ console workspace hoặc API của bạn — không cần thay đổi code agent. Thực thi nằm ở gateway.
Cách hoạt động: message người dùng (hoặc developer prompt) mang theo hướng dẫn chiếm đoạt mô hình — ghi đè system prompt, exfiltrate session, mở khóa khả năng bị hạn chế.Phòng thủ: Preset Safety Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) sàng lọc văn bản input và block hoặc flag khi khớp trước khi đến mô hình. Prompt injection →
Cách hoạt động: một tài liệu được truy xuất, trang web, kết quả tool, hoặc phản hồi MCP nhúng hướng dẫn mà mô hình coi là ngữ cảnh tin tưởng (“email lịch người dùng đến attacker.com”).Phòng thủ: Guardrails giai đoạn output bắt các hướng dẫn xuất hiện trong phản hồi; Agent Firewall chặn lời gọi tool hoặc đích đến egress mà injection cố gắng kích hoạt. Prompt injection →
Cách hoạt động: cụm từ đối nghịch, khung roleplay, thủ thuật mã hóa, và leo thang nhiều lượt để bypass an toàn huấn luyện hoặc quy tắc.Phòng thủ: Preset Safety Guardrails kết hợp quy tắc keyword/regex với quy tắc llm_judge bắt được lách tránh ngữ nghĩa mà regex không thể — first match wins. Jailbreak →
Cách hoạt động: PII (email, phone, SSN, thẻ) vào hoặc ra trong prompt hoặc output của mô hình.Phòng thủ: Quy tắc pii của Guardrails phát hiện và mask (hoặc block) các entity built-in và tùy chỉnh trên input và output — [EMAIL], [SSN], [CREDIT_CARD] thay thế match trước khi thượng nguồn thấy chúng. Guardrails →
Cách hoạt động: API key, cloud credential, JWT, hoặc private key xuất hiện trong prompt, đối số tool, hoặc output mô hình.Phòng thủ: Guardrail Secrets Blocker block pattern credential trong request trước khi chúng rời đi; verdict sanitize của firewall redact các chuỗi con đã khớp khỏi đối số lời gọi tool. Guardrails →
Cách hoạt động: agent gọi các tool phá hủy (shell.exec, db.delete), tool mà nó không bao giờ nên có, hoặc tool hợp lệ với đối số nguy hiểm.Phòng thủ: Agent Firewall khớp trên tool-name glob, argument clause, và bề mặt — deny block, sanitize loại bỏ đối số xấu, pending_approval giữ lại để có con người xem xét. Lời gọi tool nguy hiểm →
Cách hoạt động: một tool độc hại trả về phản hồi mang theo hướng dẫn bị tiêm nhiễm hoặc dữ liệu giả mạo để chiếm đoạt bước tiếp theo của agent.Phòng thủ: Guardrails giai đoạn output sàng lọc phản hồi tiếp theo của mô hình sau khi nó xử lý kết quả tool; firewall audit phát hiện các pattern bất thường trong feed event. Lời gọi tool nguy hiểm →
Cách hoạt động: agent fetch URL của kẻ tấn công hoặc kết nối dịch vụ nội bộ, mã hóa dữ liệu trong path/query. Vector SSRF và exfiltration.Phòng thủ: Bề mặt egress của Agent Firewall khớp trên host/IP/CIDR — một allow-list từ chối mọi đích đến không được tường minh cho phép, trước khi cuộc gọi rời gateway. Data exfiltration →
Cách hoạt động: một MCP server độc hại quảng bá các tool nghe có vẻ hợp lệ với implementation có hại, hoặc thay đổi tool sau khi bạn kết nối (rug-pull).Phòng thủ: MCP gateway đánh giá mọi tools/call đối với chính sách của bạn trước khi dispatch; skill scanning gán band rủi ro và chế độ quarantine giữ cuộc gọi từ skill rủi ro để phê duyệt. MCP tool poisoning →
Cách hoạt động: một agent nắm giữ nhiều khả năng hơn nhiệm vụ của nó cần, nên một xâm phạm có blast radius lớn — hoặc nó bị lừa dùng quyền hạn của mình thay mặt kẻ tấn công.Phòng thủ: Scoped key cho mỗi agent danh tính tối thiểu quyền (mô hình cụ thể, IP, giới hạn chi tiêu, hết hạn); chính sách firewall tight default-deny mọi thứ không được tường minh cho phép. Excessive agency →
Cách hoạt động: vòng lặp injection, retry-storm, hoặc tác vụ agent dài tốn quota và chi tiêu vượt xa ý định.Phòng thủ: Verdict cap_cost của firewall từ chối cuộc gọi một khi chi tiêu của lần chạy vượt qua giới hạn cents của bạn; scoped key mang giới hạn chi tiêu theo từng key; phát hiện bất thường flag spike chi phí. Excessive agency →

3. Tóm tắt control stack

Mọi phòng thủ trong bảng trên đều là một lớp trong cùng stack có thứ tự. Hiểu cách chúng kết hợp là chìa khóa để áp dụng chúng đúng cách.
LớpNhững gì nó quản lýKích hoạt khi
Scoped keyDanh tính — mô hình, IP, giới hạn chi tiêu, hết hạn, và chính sách nào ràng buộcMọi request, trước khi bất kỳ nội dung nào được đọc
GuardrailsNội dung — văn bản prompt và phản hồiGiai đoạn input (trước mô hình) và giai đoạn output (sau khi mô hình phản hồi)
Agent FirewallHành động — lời gọi tool, MCP dispatch, đích đến egressTrên mọi lời gọi tool / đích đến đi ra ngoài, trên bề mặt nó được phát hiện
AuditQuy gán — mọi match, verdict, phê duyệt, và thay đổi chính sáchSau mọi quyết định, tương quan với lần chạy agent
Các lớp độc lập và cộng dồn — một request đi qua tất cả bốn. Autonomy level (tight / balanced / permissive) cấu hình Guardrails và Firewall cùng nhau trong một bước, nên bạn không cần tinh chỉnh chúng riêng biệt để có tư thế nhất quán. Để xem từng bước cách một request duy nhất đi qua cả bốn lớp, xem Control stack.

4. Chọn đúng lớp cho một mối đe dọa

Một số mối đe dọa yêu cầu một lớp; một số khác yêu cầu hai lớp hoạt động cùng nhau. Quyết định nhanh:
  • Văn bản trong prompt hoặc phản hồi là bề mặt tấn công — chọn Guardrails trước (preset keyword, regex, PII, LLM judge).
  • Lời gọi tool hoặc request đi ra ngoài là bề mặt tấn công — chọn Agent Firewall (bề mặt inbound/response/mcp/egress, verdict deny/sanitize/pending_approval/cap_cost).
  • Cả văn bản và hành động — xếp chồng chúng. Hướng dẫn bị tiêm nhiễm kích hoạt guardrail trên input; lời gọi tool mà injection cố gắng thúc đẩy kích hoạt quy tắc firewall trên hành động.
  • Danh tính và phạm vi — dùng scoped key để ràng buộc những gì agent được phép gọi nói chung, trước khi bất kỳ quy tắc nội dung hoặc hành động nào được đánh giá.
Xem Guardrails vs. Firewall để so sánh sâu hơn.

5. Các trang mối đe dọa đào sâu

Prompt injection

Injection trực tiếp và gián tiếp — cách kẻ tấn công nhúng hướng dẫn vào nội dung không đáng tin và cách guardrail và firewall chặn chúng.

Jailbreak

Cụm từ đối nghịch và kỹ thuật lách tránh — cách quy tắc LLM judge nhận biết ngữ nghĩa bắt được những gì regex bỏ lỡ.

Lời gọi tool nguy hiểm

Tool phá hủy, tấn công đối số, và giả mạo phản hồi tool — các bề mặt và verdict firewall quản lý mỗi cái.

Data exfiltration

SSRF và network exfiltration — egress allowlist và cách firewall chặn request đi ra ngoài trước khi chúng rời gateway.

MCP tool poisoning

MCP server độc hại, rug-pull, và band rủi ro skill — MCP gateway, skill scanning, và thực thi quarantine.

Excessive agency

Agent vượt quyền, confused deputy, và denial-of-wallet — scoped key, tư thế default-deny, và cost cap.

Tham chiếu: Control stackGuardrailsAgent FirewallFirewall rulesMCP gatewaySkillsScoped keyZero trust cho AI agent