跳轉到主要內容

AI 代理安全詞彙表

OrcaRouter 零信任文件中使用的每個術語的快速參考索引。 每個定義都限定在你作為託管閘道上的開發者所能觀察和設定的範圍內。 術語連結到其主頁以獲取完整詳情。

身份與範圍

術語定義
工作區頂層租戶邊界。所有金鑰、防護欄、防火牆政策和稽核事件都屬於一個工作區;沒有任何東西跨越租戶邊界。參見範圍、金鑰與政策
API 金鑰(範圍化金鑰)你的代理在每次呼叫時提供的持有者權杖。攜帶自己的模型允許清單、IP 限制、支出上限、到期日,以及套用到它的確切防護欄 + 防火牆政策。參見範圍、金鑰與政策
model_limits金鑰被允許呼叫的模型(或模型 glob)集合。清單之外的模型請求在任何上游呼叫之前被拒絕。
allow_ips金鑰上的 IP 或 CIDR 允許清單。來自清單之外地址的請求在驗證時被拒絕。
credit_limit_usd(支出上限)金鑰上以美元計的硬性支出上限。一旦金鑰的累計使用達到上限,進一步的請求就被拒絕。對於限制失控代理迴圈很有用。
環境標籤附加到金鑰的自由格式標籤(例如 productionstaging),用於按部署環境組織和識別它。
is_firewall_gateway一個將金鑰範圍化為防火牆閘道路由(/api/v1/firewall/*)的旗標——MCP 派發和評估鉤子端點。普通金鑰在這些路由上會得到 403
最小代理權限只給代理它實際需要的模型、支出、IP 和政策的原則——不多不少。通過在同一金鑰上組合 model_limitsallow_ipscredit_limit_usd 和限制性防火牆政策來實現。參見範圍、金鑰與政策

防護欄

術語定義
防護欄一個命名的、工作區範圍的內容政策——閘道對請求輸入和模型輸出執行的有序規則清單。附加到金鑰(或設定為工作區預設值)一次;每個綁定的呼叫都無需重新部署地被篩查。
規則防護欄內的一次檢查:一個類型(偵測什麼)、一個階段(在哪裡查找)和一個動作(做什麼)。規則按順序執行。
階段input(呼叫者的請求)、output(模型的回應)或 both。規則只在其聲明的階段觸發。
動作block——拒絕整個請求(HTTP 400);mask——遮罩匹配項並讓呼叫通過;flag——僅記錄,不更改流量。
guardrail_blocked當防護欄規則觸發 block 動作時返回的錯誤代碼。返回 HTTP 400。請求不消耗配額——輸入階段封鎖在計量之前觸發;輸出階段封鎖退還預先消耗的配額。
PII Shield一個 pii 類型的規則,偵測內建敏感實體類型(電子郵件、電話、SSN、信用卡、IP 等)並用型別標籤遮罩它們。(pii 規則類型在你自己撰寫時也支援每實體 block。)資料洩漏預防的標準起點。密鑰和憑證由單獨的 Secrets Blocker 預設值涵蓋。
提示注入防護欄偵測不可信內容(網頁、工具結果)試圖劫持代理指令的安全規則。在安全模板類別中以 Prompt-Injection Basics 預設值提供。
敏感詞過濾器一個 keyword 類型的規則,不分大小寫地匹配字面術語清單。最簡單的拒絕清單。
LLM 評審一個 llm_judge 類型的規則,對你工作區中的模型執行語義檢查(毒性、離題、越獄意圖)。用於沒有正規表示式能捕捉的模糊政策。權杖按評審子項計費。
情境接地一個 grounding 類型的規則,對照請求上的 RAG 來源對模型的答案評分,並標記或封鎖對其不忠實的答案。
記錄原始內容一個每防護欄切換——預設關閉(隱私保守)。關閉時,Matches 動態記錄規則觸發了但不記錄匹配到的子字串。需要實際字串進行分類時,每個防護欄逐一開啟。
Matches 動態每個觸發規則的工作區範圍記錄:規則類型、動作、階段、詳細字串,以及(當記錄原始內容開啟時)匹配到的子字串。可按防護欄、規則類型和動作過濾。

代理防火牆

術語定義
防火牆政策一組命名的、工作區範圍的有序規則,閘道對每次工具呼叫評估。附加到金鑰一次或設定為工作區預設值;不需要代理程式碼更改。
裁決規則(或預設值)對工具呼叫產生的結果。allowauditdenysanitizepending_approvalcap_cost 之一。
預設裁決當政策中沒有規則匹配工具呼叫時套用的裁決。預設為 audit——允許一切並記錄它——直到你準備好強制執行。
強制執行表面防火牆在請求生命週期中看見呼叫的那個點:inbound(代理公告的工具定義)、response(模型發出的工具呼叫)、mcp(透過 MCP 閘道的 tools/call)或 egress(工具報告的外向目的地)。參見防火牆
工具允許清單(glob)規則上的 tool_name_glob——一個匹配工具名稱或系列的小型區分大小寫語法(shell.**.exec*)。第一個匹配者勝出,對照有序規則清單。
引數驗證規則上的 args_match 子句——工具引數中 JSONPath 欄位上的 eqcontainsregexincidr_matchgtlt 操作符。「封鎖 shell.exec」和「只在命令是 rm -rf 時封鎖 shell.exec」之間的差別。
淨化一個 sanitize 裁決,從工具引數中遮罩匹配到的子字串(密鑰、PII),並轉發清理後的呼叫,而不是封鎖整個動作。在 inbound 表面上升級為封鎖。
外向控制一個帶有主機/CIDR 允許或拒絕清單的 egress 表面規則——抵禦 SSRF 和資料外洩的主要防線。tight 自主等級也拒絕常見的擷取形狀工具(http_fetchfetch_urlweb_searchrequest)。
cap_cost一個一旦代理執行的累計支出(以分計)超過每規則上限就拒絕工具呼叫的裁決。失控代理迴圈的斷路器;被撰寫為規則,並根據累計支出在事件中解析為允許或拒絕。
序列規則帶有 sequence 區塊的規則,匹配時間窗口內有序的多步驟工具呼叫鏈(例如批量讀取 → 匯出 → 外向請求)。由異步匹配器反應式強制執行;在事件動態上顯示。
firewall_blocked被拒絕工具呼叫上的錯誤代碼。在 inbound 上返回 HTTP 400;在 mcp 上返回工具錯誤。標記為 skip-retry。
審批 / HITLpending_approvalpending_approval 裁決保留工具呼叫以供人工審查。代理接收帶有審批 id 的保留回應,審查者在頻道外批准或拒絕,代理帶著一次性審批權杖重新提交。保留期間的 HTTP 錯誤代碼是 firewall_approval_pending
異常偵測靜態規則之上的統計層。對照 14 天每週小時基線對每工具活動評分,並在可審查動態上標記飆升、重試迴圈和新穎工具轉移路徑。

姿態

術語定義
觀察模式一個工作區層級的設定。開啟且沒有政策附加到金鑰時,工具呼叫被允許但記錄為覆蓋缺口,填充 Discovered-tools 視圖。
影子模式政策上的旗標。政策評估和記錄完全如同在生產中一樣,但每個強制執行裁決都被降級為 audit(原因帶有 [shadow] would … 前綴)。安全推出開關。
強制執行影子模式關閉且政策被附加時的預設狀態。裁決生效——deny 封鎖、sanitize 遮罩、pending_approval 保留。
自主等級一個單一開關(tight / balanced / permissive),在一次交易中原子性地替換工作區的防火牆和防護欄姿態,支援一鍵還原。參見強制執行模式安全代理基準

MCP 與技能

術語定義
MCP 伺服器在你的工作區登錄並透過防火牆 MCP 閘道(api.orcarouter.ai/api/v1/firewall/mcp)暴露的 Model Context Protocol 伺服器。它接收的每次 tools/call 都被內聯評估。參見防火牆 MCP
tools/call將工具派發到 MCP 伺服器的 MCP 協定訊息。防火牆在轉發之前在 mcp 表面評估它。
拉地毯式詐騙(Rug-pull)MCP 伺服器或安裝能力在你授予其存取之後更改或擴展其工具定義的供應鏈風險。OrcaRouter 治理爆炸半徑:每次 MCP tools/call 都在 mcp 表面針對你的規則進行防火牆評估,掃描出高風險的技能被保留在 quarantine 中直到人工審查。
技能一個能力包(來自一個或多個 MCP 伺服器的一個或多個工具),閘道在登錄時對其進行風險掃描。每個技能獲得一個風險等級和一個強制執行模式(allowquarantineblock),疊加在政策層級裁決之上。

合規性與資料

術語定義
合規性包用於監管設定(GDPR、PCI、HIPAA、財務資料)的預建防護欄 + 防火牆政策包。從模板庫一次性套用;規則在套用後可編輯。
簽署的合規性報告以 Ed25519 簽署的工作區層級證明報告。簽名可公開驗證——任何擁有公鑰的人都可以確認報告未被篡改。
資料居住地為你的合規性證據記錄的地區。簽署的合規性報告按地區(useuukapcnglobal)標記和儲存,報告只在匹配聲明的地區下提供。在合規性設定中設定它。
被遺忘權在工作區刪除或明確的抹除請求時,OrcaRouter 給予 30 天的寬限期,然後從那個工作區的日誌和稽核記錄中清除 PII。
稽核事件在每次建立、更新、刪除和強制執行決策後寫入的不可變記錄——政策更改、規則編輯、審批解決、防護欄儲存。密鑰值和規則 blob 永遠不會被寫入稽核日誌。

威脅(一行說明)

威脅它是什麼
提示注入攻擊者在代理攝取的內容中嵌入指令(直接:在使用者的訊息中;間接:在網頁、文件或工具結果中)以劫持代理的行為。
越獄一個精心設計的提示詞,試圖繞過模型的安全訓練,通常通過將請求框架為角色扮演、假設或系統覆蓋。
過度代理權限 / 混淆代理人被授予比其任務需要更廣泛許可的代理,通過注入指令使其微不足道地可被利用——關鍵緩解措施是最小代理權限
資料外洩代理(或注入的指令)引導工具呼叫或外向請求,將敏感資料洩漏到攻擊者控制的端點。通過外向控制規則緩解。
錢包拒絕服務失控或由對手觸發的代理生成無界的上游模型支出。通過金鑰上的 credit_limit_usd 和防火牆政策中的 cap_cost 規則緩解。

如需了解這些控制如何組合的完整圖景,參見以 OrcaRouter 保護 AI 代理