以 OrcaRouter 保護 AI 代理

AI 代理不是聊天機器人。它讀取不可信的網頁、呼叫工具、花費金錢、觸及內部主機，並載入在執行期找到的能力。這些都是具有真實世界後果的動作，而且其中大多數都在沒有人工介入的情況下發生。 OrcaRouter 坐落在你的代理與它所呼叫的每個模型之間，因此它是唯一能看見每一個請求與回應的地方—— 以及你的代理透過它路由的每次工具呼叫和外向目的地—— 無論哪個供應商服務了它。這個咽喉要道就是零信任強制執行所屬之處。你在工作區設定一次；你的代理像以前一樣繼續呼叫 https://api.orcarouter.ai/v1。

1. 威脅：代理行動，不只是聊天

提示詞層級的安全是為聊天而建的。它假設模型產生文字，而人類閱讀它。代理打破了這個假設：

它們攝取不可信的內容——一個網頁、一份擷取的文件、一個工具結果——這些內容可能攜帶指令（提示注入）。
它們呼叫工具——shell.exec、db.query、一個支付 API——做不可逆的事情。
它們觸及網路——擷取攻擊者可以引導到內部服務或外洩端點的 URL。
它們自我擴展——安裝你從未審查過的技能、插件和 MCP 伺服器。

這些對只讀取提示詞的內容過濾器來說都是不可見的。保護代理意味著控制身份、內容、動作和網路，並保存所有這些的稽核軌跡。

2. 控制堆疊

OrcaRouter 對每個請求套用四個層次。每個層次都是獨立的、工作區範圍的，並且無需更改程式碼即可附加到 API 金鑰。

範圍金鑰

最小代理權限身份。綁定到特定模型、IP、支出上限、到期日，以及套用的確切防護欄與防火牆政策。

防護欄

內容控制。審查提示詞與回應——封鎖、遮罩或標記 PII、密鑰、注入和不安全輸出。

代理防火牆

動作控制。允許清單工具、驗證並淨化工具呼叫引數、保留待審批，以及設定外向請求和成本上限。

稽核

歸因。每次匹配、裁決和審批都會被記錄並與造成它的代理執行相關聯。

請求按順序流經它們：金鑰決定呼叫是否被允許以及哪些政策綁定； 防護欄審查輸入文字；模型執行；防火牆判斷任何工具呼叫和外向目的地；防護欄審查輸出；每個決策落入稽核軌跡。參見控制堆疊了解完整路徑。

3. 為何是「零信任」

零信任意味著沒有任何請求因其來源而受到信任。一次工具呼叫根據它是什麼來判斷，而不是因為你自己的代理發出了它——因為代理可能是根據它從不可信頁面讀到的注入指令行動的。 OrcaRouter 通過對重要動作預設拒絕和對你打算使用的動作明確允許清單來強制執行這一點。 AI 代理為何需要零信任深入涵蓋了這個模型。

4. 一切都存在於閘道

控制堆疊在你的工作區設定並在閘道強制執行，而不是在你的應用程式中：

附加一次，處處適用。 將防護欄和防火牆政策綁定到 API 金鑰；該金鑰發出的每次呼叫都會被審查。編輯政策，每個附加的金鑰在下次請求時就會改變。
無需重新部署，無需 SDK 更改。 你的代理繼續發出相同的 OpenAI 形狀的呼叫。強制執行是不可見的，直到規則觸發。
供應商無關。 相同的政策在 GPT、Claude、Gemini 及其他模型上執行——它審查文字和動作，而不是模型選擇。

設定在工作區內受角色控管。 讀取政策和設定對任何成員開放；防火牆Events 和 Runs 動態需要 Developer 角色；建立或更改防護欄、防火牆政策和金鑰需要 Developer；合規性和閘道金鑰更改需要 Admin。在這些文件中，每個設定步驟都會注明它所需的角色。

5. 快速路徑：一個開關

你不必撰寫規則就能獲得保護。自主等級在一個步驟中設定你整個防火牆與防護欄姿態，並支援一鍵還原：

等級	你獲得什麼
`tight`	預設拒絕；封鎖破壞性工具和 SSRF 外向請求；PII + 密鑰防護欄開啟。
`balanced`	預設稽核，拒絕破壞性 shell，標記 PII。建議的起始姿態。
`permissive`	沒有強制執行，但一切都被觀察，所以你仍然能看到代理的行為。

這是安全代理基準—— 從那裡開始，觀察你的代理實際做什麼，然後收緊。

6. 下一步去哪裡

快速入門

5 分鐘內開啟零信任。

為何零信任

設計背後的威脅模型。

防護欄與防火牆

哪個層次捕捉哪個威脅。

你的責任是什麼

閘道保護什麼，以及什麼是你的責任。

為何零信任

​1. 威脅：代理行動，不只是聊天

​2. 控制堆疊

範圍金鑰

防護欄

代理防火牆

稽核

​3. 為何是「零信任」

​4. 一切都存在於閘道

​5. 快速路徑：一個開關

​6. 下一步去哪裡

快速入門

為何零信任

防護欄與防火牆

你的責任是什麼

1. 威脅：代理行動，不只是聊天

2. 控制堆疊

3. 為何是「零信任」

4. 一切都存在於閘道

5. 快速路徑：一個開關

6. 下一步去哪裡