Bảng thuật ngữ khái niệm

Bảng thuật ngữ bảo mật AI agent

Chỉ mục tham chiếu nhanh của mọi thuật ngữ được dùng trong toàn bộ tài liệu Zero Trust. Mỗi định nghĩa được giới hạn trong những gì bạn, với tư cách developer trên gateway được host, có thể quan sát và cấu hình. Các thuật ngữ liên kết đến trang chính của chúng để biết chi tiết đầy đủ.

Danh tính & phạm vi

Thuật ngữ	Định nghĩa
Workspace	Ranh giới tenant cấp cao nhất. Tất cả key, guardrail, chính sách firewall, và sự kiện audit đều thuộc về một workspace; không có gì vượt ranh giới tenant. Xem Phạm vi, key & chính sách.
API key (scoped key)	Một bearer token mà agent của bạn trình bày trên mọi cuộc gọi. Mang theo allow-list mô hình riêng của nó, hạn chế IP, giới hạn chi tiêu, hết hạn, và guardrail + chính sách firewall áp dụng chính xác cho nó. Xem Phạm vi, key & chính sách.
`model_limits`	Tập mô hình (hoặc glob mô hình) mà một key được phép gọi. Request cho mô hình ngoài danh sách bị từ chối trước bất kỳ cuộc gọi thượng nguồn nào.
`allow_ips`	Một IP hoặc CIDR allowlist trên key. Request xuất phát từ địa chỉ ngoài danh sách bị từ chối tại xác thực.
`credit_limit_usd` (giới hạn chi tiêu)	Trần chi tiêu cứng trên key, tính bằng USD. Một khi usage tích lũy của key đạt giới hạn, các request thêm bị từ chối. Hữu ích để giới hạn vòng lặp agent mất kiểm soát.
Environment tag	Một nhãn freeform (vd: `production`, `staging`) gắn với một key để tổ chức và nhận dạng nó theo môi trường triển khai.
`is_firewall_gateway`	Một flag giới hạn phạm vi key cho các route Firewall gateway (`/api/v1/firewall/*`) — các endpoint MCP dispatch và evaluate-hook. Một key thông thường nhận `403` trên các route đó.
Tối thiểu quyền (Least agency)	Nguyên tắc cho agent chỉ các mô hình, chi tiêu, IP, và chính sách mà nó thực sự cần — không hơn. Được thực hiện bằng cách kết hợp `model_limits`, `allow_ips`, `credit_limit_usd`, và chính sách firewall hạn chế trên cùng một key. Xem Phạm vi, key & chính sách.

Guardrails

Thuật ngữ	Định nghĩa
Guardrail	Một chính sách nội dung có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input request và output mô hình. Gắn nó với một key (hoặc đặt làm mặc định workspace) một lần; mọi cuộc gọi được ràng buộc đều được sàng lọc mà không cần triển khai lại.
Quy tắc	Một kiểm tra bên trong guardrail: một type (cái gì cần phát hiện), một stage (nơi cần tìm), và một action (phải làm gì). Quy tắc chạy theo thứ tự.
Stage	`input` (request của caller), `output` (phản hồi của mô hình), hoặc `both`. Một quy tắc chỉ kích hoạt ở giai đoạn đã khai báo của nó.
Action	`block` — từ chối toàn bộ request (HTTP 400); `mask` — redact match và cho cuộc gọi đi qua; `flag` — chỉ ghi log, không thay đổi traffic.
`guardrail_blocked`	Mã lỗi trả về khi quy tắc guardrail kích hoạt hành động `block`. Trả về HTTP 400. Request không tốn quota — block giai đoạn input kích hoạt trước khi đo lường; block giai đoạn output hoàn trả quota đã tiêu trước.
PII Shield	Một quy tắc loại `pii` phát hiện các loại entity nhạy cảm built-in (email, phone, SSN, credit card, IP, và nhiều hơn) và mask chúng với các tag có kiểu. (Loại quy tắc `pii` cũng hỗ trợ `block` theo từng entity khi bạn soạn chính sách của mình.) Điểm khởi đầu chuẩn cho ngăn chặn mất dữ liệu. Secret và credential được bao phủ bởi preset Secrets Blocker riêng biệt.
Guardrail prompt-injection	Một quy tắc an toàn phát hiện nỗ lực của nội dung không đáng tin (trang web, kết quả tool) để chiếm đoạt hướng dẫn của agent. Đi kèm như preset Prompt-Injection Basics trong danh mục template Safety.
Bộ lọc từ nhạy cảm	Một quy tắc loại `keyword` khớp một danh sách thuật ngữ literal, không phân biệt hoa thường. Denylist đơn giản nhất.
LLM judge	Một quy tắc loại `llm_judge` chạy kiểm tra ngữ nghĩa (độc hại, lạc đề, ý đồ jailbreak) đối với một mô hình trong workspace của bạn. Dùng cho các chính sách mờ mà không regex nào nắm bắt được. Token được tính phí như một sub-line judge.
Contextual grounding	Một quy tắc loại `grounding` chấm điểm câu trả lời của mô hình đối với các nguồn RAG trên request và flag hoặc block câu trả lời không trung thực với chúng.
Log raw content	Toggle theo từng guardrail — tắt mặc định (tư thế bảo thủ về quyền riêng tư). Khi tắt, feed Matches ghi lại rằng quy tắc đã kích hoạt nhưng không phải chuỗi con đã khớp. Bật theo từng guardrail khi bạn cần chuỗi thực để phân loại.
Feed Matches	Bản ghi toàn workspace của mọi quy tắc đã kích hoạt: loại quy tắc, hành động, stage, chuỗi chi tiết, và (khi Log raw content bật) chuỗi con đã khớp. Có thể lọc theo guardrail, loại quy tắc, và hành động.

Agent Firewall

Thuật ngữ	Định nghĩa
Chính sách Firewall	Một tập quy tắc có thứ tự có tên, theo phạm vi workspace mà gateway đánh giá trên mọi lời gọi tool. Gắn một lần với key hoặc đặt làm mặc định workspace; không cần thay đổi code agent.
Verdict	Kết quả mà một quy tắc (hoặc mặc định) tạo ra cho một lời gọi tool. Một trong `allow`, `audit`, `deny`, `sanitize`, `pending_approval`, hoặc `cap_cost`.
Verdict mặc định	Verdict được áp dụng khi không có quy tắc nào trong chính sách khớp lời gọi tool. Mặc định là `audit` — cho phép mọi thứ và ghi lại nó — cho đến khi bạn sẵn sàng thực thi.
Bề mặt thực thi	Điểm trong vòng đời request nơi firewall thấy cuộc gọi: `inbound` (định nghĩa tool mà agent quảng bá), `response` (lời gọi tool mô hình phát ra), `mcp` (một `tools/call` qua MCP gateway), hoặc `egress` (đích đến đi ra ngoài được báo cáo bởi tool). Xem Firewall.
Tool allow-list (glob)	Một `tool_name_glob` trên một quy tắc — grammar phân biệt hoa thường nhỏ (`shell.`, `.exec`, `*`) khớp tên tool hoặc họ. First-match-wins đối với danh sách quy tắc có thứ tự.
Argument validation	Mệnh đề `args_match` trên một quy tắc — toán tử `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` trên các trường JSONPath trong đối số của tool. Sự khác biệt giữa “block `shell.exec`” và “block `shell.exec` chỉ khi lệnh là `rm -rf`.”
Sanitize	Một verdict `sanitize` redact các chuỗi con đã khớp (secret, PII) khỏi đối số tool và chuyển tiếp cuộc gọi đã làm sạch, thay vì block toàn bộ hành động. Leo thang thành block trên bề mặt `inbound`.
Egress control	Một quy tắc bề mặt `egress` với danh sách allow hoặc deny host/CIDR — phòng thủ chính chống SSRF và data exfiltration. Autonomy level `tight` cũng từ chối các tool có hình dạng fetch (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Một verdict từ chối lời gọi tool một khi chi tiêu tích lũy của lần chạy agent (tính bằng cents) vượt quá trần theo từng quy tắc. Cầu dao ngắt mạch cho vòng lặp agent mất kiểm soát; được soạn như một quy tắc và phân giải thành allow hoặc deny trong event dựa trên chi tiêu tích lũy.
Sequence rule	Một quy tắc với block `sequence` khớp một chuỗi lời gọi tool nhiều bước có thứ tự trong một cửa sổ thời gian (vd: bulk-read → export → egress). Được thực thi phản ứng bởi matcher async; xuất hiện trên feed event.
`firewall_blocked`	Mã lỗi trên một lời gọi tool bị từ chối. Trả về HTTP 400 trên `inbound`; lỗi tool trên `mcp`. Được đánh dấu skip-retry.
Phê duyệt / HITL (`pending_approval`)	Một verdict `pending_approval` giữ lời gọi tool để con người xem xét. Agent nhận một phản hồi đã giữ với approval id, reviewer phê duyệt hoặc từ chối ngoài luồng, và agent gửi lại với token phê duyệt dùng một lần. Mã lỗi HTTP khi đang giữ là `firewall_approval_pending`.
Phát hiện bất thường	Lớp thống kê trên các quy tắc tĩnh. Chấm điểm hoạt động theo từng tool đối với baseline 14 ngày theo giờ-trong-tuần và flag spike, retry loop, và các đường chuyển tiếp tool mới trên feed có thể xem xét.

Tư thế

Thuật ngữ	Định nghĩa
Observe mode	Cài đặt cấp workspace. Khi bật và không có chính sách nào được gắn với key, lời gọi tool được cho phép nhưng được ghi log như khoảng trống độ phủ, điền vào chế độ xem Discovered-tools.
Shadow mode	Một flag trên một chính sách. Chính sách đánh giá và ghi log chính xác như nó sẽ làm trong production, nhưng mọi verdict thực thi đều bị hạ cấp thành `audit` (lý do có tiền tố `[shadow] would …`). Công tắc triển khai an toàn.
Enforce	Trạng thái mặc định khi shadow mode tắt và chính sách được gắn. Verdict có hiệu lực — `deny` block, `sanitize` redact, `pending_approval` giữ lại.
Autonomy level	Một công tắc duy nhất (`tight` / `balanced` / `permissive`) nguyên tử thay thế tư thế Firewall và Guardrails của workspace trong một transaction với hoàn tác một cú nhấp. Xem Enforcement modes và Secure Agents baseline.

MCP & skill

Thuật ngữ	Định nghĩa
MCP server	Một Model Context Protocol server được đăng ký trong workspace của bạn và phơi bày qua Firewall MCP gateway (`api.orcarouter.ai/api/v1/firewall/mcp`). Mọi `tools/call` nó nhận đều được đánh giá inline. Xem Firewall MCP.
`tools/call`	Message protocol MCP dispatch một tool đến MCP server. Firewall đánh giá nó trên bề mặt `mcp` trước khi chuyển tiếp.
Rug-pull	Rủi ro chuỗi cung ứng nơi một MCP server hoặc khả năng đã cài đặt thay đổi hoặc mở rộng định nghĩa tool của nó sau khi bạn đã cấp quyền truy cập. OrcaRouter quản lý blast radius: mọi `tools/call` MCP đều được đánh giá firewall trên bề mặt `mcp` đối với các quy tắc của bạn, và một skill quét ra rủi ro được giữ trong `quarantine` cho đến khi con người xem xét.
Skill	Một gói khả năng (một hoặc nhiều tool từ một hoặc nhiều MCP server) mà gateway quét rủi ro khi đăng ký. Mỗi skill nhận band rủi ro và enforcement mode (`allow`, `quarantine`, `block`) cưỡi lên trên các verdict cấp chính sách.

Compliance & dữ liệu

Thuật ngữ	Định nghĩa
Compliance pack	Một gói guardrail + chính sách firewall được xây dựng sẵn cho một hồ sơ quy định (GDPR, PCI, HIPAA, dữ liệu tài chính). Áp dụng một lần từ thư viện template; các quy tắc có thể chỉnh sửa sau khi áp dụng.
Báo cáo compliance đã ký	Một báo cáo chứng thực cấp workspace được ký với Ed25519. Chữ ký có thể xác minh công khai — bất kỳ ai có public key đều có thể xác nhận báo cáo không bị giả mạo.
Data residency	Khu vực được ghi lại cho bằng chứng compliance của bạn. Báo cáo compliance đã ký được đóng dấu và lưu theo khu vực (`us`, `eu`, `uk`, `ap`, `cn`, `global`), và báo cáo chỉ được phục vụ dưới khu vực đã khai báo khớp. Đặt nó trong cài đặt compliance.
Quyền xóa	Khi xóa workspace hoặc yêu cầu xóa tường minh, OrcaRouter cấp thời gian ân hạn 30 ngày, rồi scrub PII khỏi log và bản ghi audit cho workspace đó.
Audit event	Một bản ghi bất biến được ghi sau mọi tạo, cập nhật, xóa, và quyết định thực thi — thay đổi chính sách, chỉnh sửa quy tắc, giải quyết phê duyệt, lưu guardrail. Giá trị secret và blob quy tắc không bao giờ được ghi vào audit log.

Mối đe dọa (một dòng)

Mối đe dọa	Nó là gì
Prompt injection	Kẻ tấn công nhúng hướng dẫn vào nội dung mà agent tiếp nhận (trực tiếp: trong message người dùng; gián tiếp: trong trang web, tài liệu, hoặc kết quả tool) để chiếm đoạt hành vi của agent.
Jailbreak	Một prompt được thiết kế cố ý để bypass an toàn huấn luyện của mô hình, thường bằng cách đóng khung request như roleplay, giả thuyết, hoặc ghi đè hệ thống.
Excessive agency / confused deputy	Một agent được cấp quyền hạn rộng hơn nhiệm vụ của nó yêu cầu, làm cho nó dễ bị khai thác bởi hướng dẫn bị tiêm nhiễm — biện pháp giảm thiểu chính là tối thiểu quyền.
Data exfiltration	Một agent (hoặc hướng dẫn bị tiêm nhiễm) hướng lời gọi tool hoặc request đi ra ngoài để rò rỉ dữ liệu nhạy cảm đến endpoint do kẻ tấn công kiểm soát. Được giảm thiểu bởi quy tắc egress control.
Denial-of-wallet	Một agent mất kiểm soát hoặc bị kích hoạt bởi kẻ tấn công tạo ra chi tiêu mô hình thượng nguồn không giới hạn. Được giảm thiểu bởi `credit_limit_usd` trên key và quy tắc `cap_cost` trong chính sách firewall.

Để xem toàn bộ bức tranh về cách các kiểm soát này kết hợp, xem Bảo mật AI agent với OrcaRouter.

​Bảng thuật ngữ bảo mật AI agent

​Danh tính & phạm vi

​Guardrails

​Agent Firewall

​Tư thế

​MCP & skill

​Compliance & dữ liệu

​Mối đe dọa (một dòng)