Chuyển đến nội dung chính

Bảng thuật ngữ bảo mật AI agent

Chỉ mục tham chiếu nhanh của mọi thuật ngữ được dùng trong toàn bộ tài liệu Zero Trust. Mỗi định nghĩa được giới hạn trong những gì bạn, với tư cách developer trên gateway được host, có thể quan sát và cấu hình. Các thuật ngữ liên kết đến trang chính của chúng để biết chi tiết đầy đủ.

Danh tính & phạm vi

Thuật ngữĐịnh nghĩa
WorkspaceRanh giới tenant cấp cao nhất. Tất cả key, guardrail, chính sách firewall, và sự kiện audit đều thuộc về một workspace; không có gì vượt ranh giới tenant. Xem Phạm vi, key & chính sách.
API key (scoped key)Một bearer token mà agent của bạn trình bày trên mọi cuộc gọi. Mang theo allow-list mô hình riêng của nó, hạn chế IP, giới hạn chi tiêu, hết hạn, và guardrail + chính sách firewall áp dụng chính xác cho nó. Xem Phạm vi, key & chính sách.
model_limitsTập mô hình (hoặc glob mô hình) mà một key được phép gọi. Request cho mô hình ngoài danh sách bị từ chối trước bất kỳ cuộc gọi thượng nguồn nào.
allow_ipsMột IP hoặc CIDR allowlist trên key. Request xuất phát từ địa chỉ ngoài danh sách bị từ chối tại xác thực.
credit_limit_usd (giới hạn chi tiêu)Trần chi tiêu cứng trên key, tính bằng USD. Một khi usage tích lũy của key đạt giới hạn, các request thêm bị từ chối. Hữu ích để giới hạn vòng lặp agent mất kiểm soát.
Environment tagMột nhãn freeform (vd: production, staging) gắn với một key để tổ chức và nhận dạng nó theo môi trường triển khai.
is_firewall_gatewayMột flag giới hạn phạm vi key cho các route Firewall gateway (/api/v1/firewall/*) — các endpoint MCP dispatch và evaluate-hook. Một key thông thường nhận 403 trên các route đó.
Tối thiểu quyền (Least agency)Nguyên tắc cho agent chỉ các mô hình, chi tiêu, IP, và chính sách mà nó thực sự cần — không hơn. Được thực hiện bằng cách kết hợp model_limits, allow_ips, credit_limit_usd, và chính sách firewall hạn chế trên cùng một key. Xem Phạm vi, key & chính sách.

Guardrails

Thuật ngữĐịnh nghĩa
GuardrailMột chính sách nội dung có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input request và output mô hình. Gắn nó với một key (hoặc đặt làm mặc định workspace) một lần; mọi cuộc gọi được ràng buộc đều được sàng lọc mà không cần triển khai lại.
Quy tắcMột kiểm tra bên trong guardrail: một type (cái gì cần phát hiện), một stage (nơi cần tìm), và một action (phải làm gì). Quy tắc chạy theo thứ tự.
Stageinput (request của caller), output (phản hồi của mô hình), hoặc both. Một quy tắc chỉ kích hoạt ở giai đoạn đã khai báo của nó.
Actionblock — từ chối toàn bộ request (HTTP 400); mask — redact match và cho cuộc gọi đi qua; flag — chỉ ghi log, không thay đổi traffic.
guardrail_blockedMã lỗi trả về khi quy tắc guardrail kích hoạt hành động block. Trả về HTTP 400. Request không tốn quota — block giai đoạn input kích hoạt trước khi đo lường; block giai đoạn output hoàn trả quota đã tiêu trước.
PII ShieldMột quy tắc loại pii phát hiện các loại entity nhạy cảm built-in (email, phone, SSN, credit card, IP, và nhiều hơn) và mask chúng với các tag có kiểu. (Loại quy tắc pii cũng hỗ trợ block theo từng entity khi bạn soạn chính sách của mình.) Điểm khởi đầu chuẩn cho ngăn chặn mất dữ liệu. Secret và credential được bao phủ bởi preset Secrets Blocker riêng biệt.
Guardrail prompt-injectionMột quy tắc an toàn phát hiện nỗ lực của nội dung không đáng tin (trang web, kết quả tool) để chiếm đoạt hướng dẫn của agent. Đi kèm như preset Prompt-Injection Basics trong danh mục template Safety.
Bộ lọc từ nhạy cảmMột quy tắc loại keyword khớp một danh sách thuật ngữ literal, không phân biệt hoa thường. Denylist đơn giản nhất.
LLM judgeMột quy tắc loại llm_judge chạy kiểm tra ngữ nghĩa (độc hại, lạc đề, ý đồ jailbreak) đối với một mô hình trong workspace của bạn. Dùng cho các chính sách mờ mà không regex nào nắm bắt được. Token được tính phí như một sub-line judge.
Contextual groundingMột quy tắc loại grounding chấm điểm câu trả lời của mô hình đối với các nguồn RAG trên request và flag hoặc block câu trả lời không trung thực với chúng.
Log raw contentToggle theo từng guardrail — tắt mặc định (tư thế bảo thủ về quyền riêng tư). Khi tắt, feed Matches ghi lại rằng quy tắc đã kích hoạt nhưng không phải chuỗi con đã khớp. Bật theo từng guardrail khi bạn cần chuỗi thực để phân loại.
Feed MatchesBản ghi toàn workspace của mọi quy tắc đã kích hoạt: loại quy tắc, hành động, stage, chuỗi chi tiết, và (khi Log raw content bật) chuỗi con đã khớp. Có thể lọc theo guardrail, loại quy tắc, và hành động.

Agent Firewall

Thuật ngữĐịnh nghĩa
Chính sách FirewallMột tập quy tắc có thứ tự có tên, theo phạm vi workspace mà gateway đánh giá trên mọi lời gọi tool. Gắn một lần với key hoặc đặt làm mặc định workspace; không cần thay đổi code agent.
VerdictKết quả mà một quy tắc (hoặc mặc định) tạo ra cho một lời gọi tool. Một trong allow, audit, deny, sanitize, pending_approval, hoặc cap_cost.
Verdict mặc địnhVerdict được áp dụng khi không có quy tắc nào trong chính sách khớp lời gọi tool. Mặc định là audit — cho phép mọi thứ và ghi lại nó — cho đến khi bạn sẵn sàng thực thi.
Bề mặt thực thiĐiểm trong vòng đời request nơi firewall thấy cuộc gọi: inbound (định nghĩa tool mà agent quảng bá), response (lời gọi tool mô hình phát ra), mcp (một tools/call qua MCP gateway), hoặc egress (đích đến đi ra ngoài được báo cáo bởi tool). Xem Firewall.
Tool allow-list (glob)Một tool_name_glob trên một quy tắc — grammar phân biệt hoa thường nhỏ (shell.*, *.exec, *) khớp tên tool hoặc họ. First-match-wins đối với danh sách quy tắc có thứ tự.
Argument validationMệnh đề args_match trên một quy tắc — toán tử eq, contains, regex, in, cidr_match, gt, lt trên các trường JSONPath trong đối số của tool. Sự khác biệt giữa “block shell.exec” và “block shell.exec chỉ khi lệnh là rm -rf.”
SanitizeMột verdict sanitize redact các chuỗi con đã khớp (secret, PII) khỏi đối số tool và chuyển tiếp cuộc gọi đã làm sạch, thay vì block toàn bộ hành động. Leo thang thành block trên bề mặt inbound.
Egress controlMột quy tắc bề mặt egress với danh sách allow hoặc deny host/CIDR — phòng thủ chính chống SSRF và data exfiltration. Autonomy level tight cũng từ chối các tool có hình dạng fetch (http_fetch, fetch_url, web_search, request).
cap_costMột verdict từ chối lời gọi tool một khi chi tiêu tích lũy của lần chạy agent (tính bằng cents) vượt quá trần theo từng quy tắc. Cầu dao ngắt mạch cho vòng lặp agent mất kiểm soát; được soạn như một quy tắc và phân giải thành allow hoặc deny trong event dựa trên chi tiêu tích lũy.
Sequence ruleMột quy tắc với block sequence khớp một chuỗi lời gọi tool nhiều bước có thứ tự trong một cửa sổ thời gian (vd: bulk-read → export → egress). Được thực thi phản ứng bởi matcher async; xuất hiện trên feed event.
firewall_blockedMã lỗi trên một lời gọi tool bị từ chối. Trả về HTTP 400 trên inbound; lỗi tool trên mcp. Được đánh dấu skip-retry.
Phê duyệt / HITL (pending_approval)Một verdict pending_approval giữ lời gọi tool để con người xem xét. Agent nhận một phản hồi đã giữ với approval id, reviewer phê duyệt hoặc từ chối ngoài luồng, và agent gửi lại với token phê duyệt dùng một lần. Mã lỗi HTTP khi đang giữ là firewall_approval_pending.
Phát hiện bất thườngLớp thống kê trên các quy tắc tĩnh. Chấm điểm hoạt động theo từng tool đối với baseline 14 ngày theo giờ-trong-tuần và flag spike, retry loop, và các đường chuyển tiếp tool mới trên feed có thể xem xét.

Tư thế

Thuật ngữĐịnh nghĩa
Observe modeCài đặt cấp workspace. Khi bật và không có chính sách nào được gắn với key, lời gọi tool được cho phép nhưng được ghi log như khoảng trống độ phủ, điền vào chế độ xem Discovered-tools.
Shadow modeMột flag trên một chính sách. Chính sách đánh giá và ghi log chính xác như nó sẽ làm trong production, nhưng mọi verdict thực thi đều bị hạ cấp thành audit (lý do có tiền tố [shadow] would …). Công tắc triển khai an toàn.
EnforceTrạng thái mặc định khi shadow mode tắt và chính sách được gắn. Verdict có hiệu lực — deny block, sanitize redact, pending_approval giữ lại.
Autonomy levelMột công tắc duy nhất (tight / balanced / permissive) nguyên tử thay thế tư thế Firewall và Guardrails của workspace trong một transaction với hoàn tác một cú nhấp. Xem Enforcement modesSecure Agents baseline.

MCP & skill

Thuật ngữĐịnh nghĩa
MCP serverMột Model Context Protocol server được đăng ký trong workspace của bạn và phơi bày qua Firewall MCP gateway (api.orcarouter.ai/api/v1/firewall/mcp). Mọi tools/call nó nhận đều được đánh giá inline. Xem Firewall MCP.
tools/callMessage protocol MCP dispatch một tool đến MCP server. Firewall đánh giá nó trên bề mặt mcp trước khi chuyển tiếp.
Rug-pullRủi ro chuỗi cung ứng nơi một MCP server hoặc khả năng đã cài đặt thay đổi hoặc mở rộng định nghĩa tool của nó sau khi bạn đã cấp quyền truy cập. OrcaRouter quản lý blast radius: mọi tools/call MCP đều được đánh giá firewall trên bề mặt mcp đối với các quy tắc của bạn, và một skill quét ra rủi ro được giữ trong quarantine cho đến khi con người xem xét.
SkillMột gói khả năng (một hoặc nhiều tool từ một hoặc nhiều MCP server) mà gateway quét rủi ro khi đăng ký. Mỗi skill nhận band rủi ro và enforcement mode (allow, quarantine, block) cưỡi lên trên các verdict cấp chính sách.

Compliance & dữ liệu

Thuật ngữĐịnh nghĩa
Compliance packMột gói guardrail + chính sách firewall được xây dựng sẵn cho một hồ sơ quy định (GDPR, PCI, HIPAA, dữ liệu tài chính). Áp dụng một lần từ thư viện template; các quy tắc có thể chỉnh sửa sau khi áp dụng.
Báo cáo compliance đã kýMột báo cáo chứng thực cấp workspace được ký với Ed25519. Chữ ký có thể xác minh công khai — bất kỳ ai có public key đều có thể xác nhận báo cáo không bị giả mạo.
Data residencyKhu vực được ghi lại cho bằng chứng compliance của bạn. Báo cáo compliance đã ký được đóng dấu và lưu theo khu vực (us, eu, uk, ap, cn, global), và báo cáo chỉ được phục vụ dưới khu vực đã khai báo khớp. Đặt nó trong cài đặt compliance.
Quyền xóaKhi xóa workspace hoặc yêu cầu xóa tường minh, OrcaRouter cấp thời gian ân hạn 30 ngày, rồi scrub PII khỏi log và bản ghi audit cho workspace đó.
Audit eventMột bản ghi bất biến được ghi sau mọi tạo, cập nhật, xóa, và quyết định thực thi — thay đổi chính sách, chỉnh sửa quy tắc, giải quyết phê duyệt, lưu guardrail. Giá trị secret và blob quy tắc không bao giờ được ghi vào audit log.

Mối đe dọa (một dòng)

Mối đe dọaNó là gì
Prompt injectionKẻ tấn công nhúng hướng dẫn vào nội dung mà agent tiếp nhận (trực tiếp: trong message người dùng; gián tiếp: trong trang web, tài liệu, hoặc kết quả tool) để chiếm đoạt hành vi của agent.
JailbreakMột prompt được thiết kế cố ý để bypass an toàn huấn luyện của mô hình, thường bằng cách đóng khung request như roleplay, giả thuyết, hoặc ghi đè hệ thống.
Excessive agency / confused deputyMột agent được cấp quyền hạn rộng hơn nhiệm vụ của nó yêu cầu, làm cho nó dễ bị khai thác bởi hướng dẫn bị tiêm nhiễm — biện pháp giảm thiểu chính là tối thiểu quyền.
Data exfiltrationMột agent (hoặc hướng dẫn bị tiêm nhiễm) hướng lời gọi tool hoặc request đi ra ngoài để rò rỉ dữ liệu nhạy cảm đến endpoint do kẻ tấn công kiểm soát. Được giảm thiểu bởi quy tắc egress control.
Denial-of-walletMột agent mất kiểm soát hoặc bị kích hoạt bởi kẻ tấn công tạo ra chi tiêu mô hình thượng nguồn không giới hạn. Được giảm thiểu bởi credit_limit_usd trên key và quy tắc cap_cost trong chính sách firewall.

Để xem toàn bộ bức tranh về cách các kiểm soát này kết hợp, xem Bảo mật AI agent với OrcaRouter.