跳轉到主要內容
簡短回答:防護欄治理文字;防火牆治理動作。 它們是互補的——一個請求流經兩者——而同時設定它們的最快方式是 自主等級 本頁的其餘部分是針對你需要知道哪個層次擁有特定威脅的情況。
所需角色。 任何工作區成員都可以讀取政策和防護欄 Matches 動態; 防火牆 Events 動態需要 Developer 角色。 建立或編輯防護欄或防火牆政策也需要 Developer 或更高角色。

1. 一行區別

層次治理看見
防護欄文字——模型讀取和寫入什麼提示詞內容、回應內容
代理防火牆動作——代理做什麼工具呼叫、MCP 派發、外向網路目的地
防護欄在上游呼叫之前(提示詞上)和之後(回應上)觸發。 防火牆在模型發出的或代理發出的每次工具呼叫上觸發——無論服務該輪次的模型或供應商。

2. 並排比較

維度防護欄代理防火牆
治理提示詞文字和模型回應文字工具呼叫、MCP 派發、外向目的地、代理成本
看見使用者訊息、系統提示詞和模型的回覆工具名稱、呼叫引數、模型發出的工具呼叫、外向主機/IP
附加方式API 金鑰上的 guardrail_idAPI 金鑰上的 firewall_policy_id
規則類型keywordregexpiimax_charsexternalllm_judgegrounding工具名稱 glob + 引數子句 + 外向範圍 + 技能擁有權
範例威脅提示詞中的 PII、回應中的 API 密鑰、越獄、離題輸出、過大的上下文危險工具呼叫、SSRF、資料外洩、失控代理成本迴圈、未批准的 MCP 伺服器
裁決 / 動作block(HTTP 400 guardrail_blocked)、maskflagallowauditdeny(HTTP 400 firewall_blocked)、sanitizepending_approvalcap_cost
何時觸發輸入階段:模型呼叫之前;輸出階段:模型回覆之後在模型發出的或代理發出的每次工具呼叫上
影子 / 觀察模式否——防護欄要麼觸發要麼不觸發是——影子模式將強制執行裁決降級為 audit 以安全推出

3. 威脅 → 哪個層次

使用此表格將新的安全要求路由到正確的控制:
威脅使用
使用者訊息中的 PII防護欄——輸入 pii 規則(mask / block
模型回應中的密鑰防護欄——輸出密鑰規則
危險工具呼叫(shell.exec rm -rf /防火牆——工具 glob + 引數子句上的 deny
透過外向 URL 的 SSRF / 資料外洩防火牆——外向允許/拒絕清單
來自不可信內容的提示注入兩者——輸入防護欄 + 防火牆允許清單
工具引數中的密鑰防火牆 sanitize + 防護欄密鑰規則
越獄 / 政策繞過防護欄——llm_judge / 關鍵字 / 正規表示式
過大的提示詞或權杖成本防護欄——max_chars 規則
失控的代理支出(成本迴圈)防火牆——cap_cost 裁決
未批准的 MCP 伺服器防火牆——MCP 表面 deny / pending_approval
來自工具結果的敏感資料防護欄——回應上的輸出規則
每個配對的深層「為何」在 威脅深入頁面上。

4. 兩者都用——自主等級一起設定它們

防護欄和防火牆被設計為組合,而不是競爭。一個請求通過兩個平面:
  1. 輸入防護欄執行——提示詞文字被審查並可選擇遮罩。
  2. 模型呼叫——(可能已淨化的)提示詞到達上游模型。
  3. 防火牆——模型發出的每次工具呼叫被評估。
  4. 輸出防護欄執行——模型的回應文字被審查。
同時設定兩者的最快方式是自主等級——一個設定在一次交易中原子性地 為整個工作區寫入防火牆政策和防護欄政策的設定,支援一鍵還原:
自主等級防火牆姿態防護欄姿態
tight預設拒絕;封鎖破壞性 shell + SSRF 外向請求PII Shield + Secrets Blocker 開啟
balanced預設稽核;拒絕破壞性 shellPII Shield 純稽核模式(標記 PII)
permissive沒有強制執行規則;觀察模式開啟不強制執行
從防火牆主控台套用自主等級(POST /api/workspace/firewall/autonomy, Developer+),然後從那裡獨立調整每個平面。

5. 摘要

防護欄擁有文字;防火牆擁有動作——兩者都執行,讓自主等級將它們串聯起來, 一旦你能看到代理的真實流量,就獨立收緊每個平面。

防護欄

規則類型、PII 偵測、LLM 評審、評測工具和 API 參考。

代理防火牆

裁決、表面、自主等級、HITL 審批和 API 參考。