防護欄與代理防火牆——何時使用哪個

簡短回答：防護欄治理文字；防火牆治理動作。 它們是互補的——一個請求流經兩者——而同時設定它們的最快方式是自主等級。本頁的其餘部分是針對你需要知道哪個層次擁有特定威脅的情況。

所需角色。 任何工作區成員都可以讀取政策和防護欄 Matches 動態；防火牆 Events 動態需要 Developer 角色。建立或編輯防護欄或防火牆政策也需要 Developer 或更高角色。

1. 一行區別

層次	治理	看見
防護欄	文字——模型讀取和寫入什麼	提示詞內容、回應內容
代理防火牆	動作——代理做什麼	工具呼叫、MCP 派發、外向網路目的地

防護欄在上游呼叫之前（提示詞上）和之後（回應上）觸發。防火牆在模型發出的或代理發出的每次工具呼叫上觸發——無論服務該輪次的模型或供應商。

維度	防護欄	代理防火牆
治理	提示詞文字和模型回應文字	工具呼叫、MCP 派發、外向目的地、代理成本
看見	使用者訊息、系統提示詞和模型的回覆	工具名稱、呼叫引數、模型發出的工具呼叫、外向主機/IP
附加方式	API 金鑰上的 `guardrail_id`	API 金鑰上的 `firewall_policy_id`
規則類型	`keyword`、`regex`、`pii`、`max_chars`、`external`、`llm_judge`、`grounding`	工具名稱 glob + 引數子句 + 外向範圍 + 技能擁有權
範例威脅	提示詞中的 PII、回應中的 API 密鑰、越獄、離題輸出、過大的上下文	危險工具呼叫、SSRF、資料外洩、失控代理成本迴圈、未批准的 MCP 伺服器
裁決 / 動作	`block`（HTTP 400 `guardrail_blocked`）、`mask`、`flag`	`allow`、`audit`、`deny`（HTTP 400 `firewall_blocked`）、`sanitize`、`pending_approval`、`cap_cost`
何時觸發	輸入階段：模型呼叫之前；輸出階段：模型回覆之後	在模型發出的或代理發出的每次工具呼叫上
影子 / 觀察模式	否——防護欄要麼觸發要麼不觸發	是——影子模式將強制執行裁決降級為 `audit` 以安全推出

使用此表格將新的安全要求路由到正確的控制：

威脅	使用
使用者訊息中的 PII	防護欄——輸入 `pii` 規則（`mask` / `block`）
模型回應中的密鑰	防護欄——輸出密鑰規則
危險工具呼叫（`shell.exec rm -rf /`）	防火牆——工具 glob + 引數子句上的 `deny`
透過外向 URL 的 SSRF / 資料外洩	防火牆——外向允許/拒絕清單
來自不可信內容的提示注入	兩者——輸入防護欄 + 防火牆允許清單
工具引數中的密鑰	防火牆 `sanitize` + 防護欄密鑰規則
越獄 / 政策繞過	防護欄——`llm_judge` / 關鍵字 / 正規表示式
過大的提示詞或權杖成本	防護欄——`max_chars` 規則
失控的代理支出（成本迴圈）	防火牆——`cap_cost` 裁決
未批准的 MCP 伺服器	防火牆——MCP 表面 deny / `pending_approval`
來自工具結果的敏感資料	防護欄——回應上的輸出規則

每個配對的深層「為何」在威脅深入頁面上。

防護欄和防火牆被設計為組合，而不是競爭。一個請求通過兩個平面：

同時設定兩者的最快方式是自主等級——一個設定在一次交易中原子性地為整個工作區寫入防火牆政策和防護欄政策的設定，支援一鍵還原：

自主等級	防火牆姿態	防護欄姿態
`tight`	預設拒絕；封鎖破壞性 shell + SSRF 外向請求	PII Shield + Secrets Blocker 開啟
`balanced`	預設稽核；拒絕破壞性 shell	PII Shield 純稽核模式（標記 PII）
`permissive`	沒有強制執行規則；觀察模式開啟	不強制執行

從防火牆主控台套用自主等級（POST /api/workspace/firewall/autonomy， Developer+），然後從那裡獨立調整每個平面。

防護欄擁有文字；防火牆擁有動作——兩者都執行，讓自主等級將它們串聯起來，一旦你能看到代理的真實流量，就獨立收緊每個平面。

規則類型、PII 偵測、LLM 評審、評測工具和 API 參考。

裁決、表面、自主等級、HITL 審批和 API 參考。