跳轉到主要內容
這是從未受保護的代理到零信任姿態的最快路徑。 你套用一個開關,像以前一樣繼續呼叫閘道,觀察你的代理實際做什麼,然後收緊。 不需要撰寫規則,不需要 SDK 更改。
套用安全姿態會更改工作區設定,所以步驟 2 和 5 需要 Developer 角色。 防護欄 Matches 動態(步驟 4)對任何成員開放;防火牆 Events 動態也需要 Developer

5 步開啟它

1

取得 API 金鑰

如果你還沒有,建立一個金鑰——參見 取得 API 金鑰。將此金鑰給你想要保護的代理。 下面的一切都綁定到你的工作區,所以相同的姿態涵蓋其中的每個金鑰。
2

套用安全代理基準

在主控台中,開啟 Firewall → Posture 並套用 balanced 自主等級Developer 角色)。在一次交易中,這設定了你的防火牆和防護欄姿態: 工具呼叫被稽核,PII 被標記,而最具破壞性的動作(如破壞性 shell)被拒絕—— 所以你在廣泛強制執行之前先觀察。這是一個帶有一鍵還原的單一開關。 (對於一個完全不封鎖任何東西的通道,從 permissive 開始。)
3

像以前一樣傳送請求

你的呼叫沒有任何改變。使用相同的金鑰,相同的 OpenAI 形狀:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
請求通過。在 balanced 下它不被封鎖——它被觀察。電子郵件被標記, 而你的代理發出的任何工具呼叫都被記錄。
4

看看你的代理實際做了什麼

兩個動態,都是工作區範圍的:
  • Firewall → Events / Runs——你的代理發出的每次工具呼叫、其裁決, 以及它命中的表面(它公告的工具、模型發出的呼叫、MCP 派發或外向目的地)。
  • Guardrails → Matches——每個觸發的規則,例如被標記的電子郵件, 按防護欄和動作分組。
這是先觀察的回報:在任何規則能破壞它之前,你看到代理的真實行為。
5

收緊以強制執行

一旦動態看起來正確,在同一個 Firewall → Posture 頁面上將自主等級切換為 tightDeveloper 角色)。現在強制執行是即時的:PII 在模型看到它之前被遮罩,密鑰從你的請求中被封鎖, 破壞性 shell 呼叫和 SSRF 外向請求被拒絕。被拒絕的工具呼叫返回 HTTP 400 firewall_blocked;被封鎖的提示詞返回 HTTP 400 guardrail_blocked—— 而封鎖不消耗你任何配額。無需更改應用程式——下一個請求立即受到治理。
這就是零信任開啟的狀態:每個提示詞和回應都被審查,每次工具呼叫和路由的外向請求都受到治理,每個決策都被記錄。

你剛剛開啟了什麼

層次balancedtight
防護欄(文字)PII 被標記(純稽核)PII 被遮罩,密鑰被封鎖
防火牆(動作)被稽核;破壞性 shell 被拒絕預設拒絕;破壞性 shell + SSRF 外向請求被拒絕
可見性完整——Events + Matches完整——Events + Matches

設定太嚴格了?

每次自主更改都是一次帶有一鍵還原的交易,所以你可以從防火牆頁面(或還原 API) 直接回滾到你之前的姿態。你也可以隨時重新套用一個較軟的等級(balancedpermissive)。

下一步

安全代理基準

每個自主等級設定什麼,以及如何在套用之前模擬。

強制執行模式

觀察 → 影子 → 強制執行,詳細的安全推出。

防護欄

撰寫超出基準的自訂內容規則。

代理防火牆

撰寫工具允許清單、引數檢查和外向規則。