簡短回答:防護欄治理文字;防火牆治理動作。
它們是互補的——一個請求流經兩者——而同時設定它們的最快方式是
自主等級。
本頁的其餘部分是針對你需要知道哪個層次擁有特定威脅的情況。
所需角色。 任何工作區成員都可以讀取政策和防護欄 Matches 動態;
防火牆 Events 動態需要 Developer 角色。
建立或編輯防護欄或防火牆政策也需要 Developer 或更高角色。
1. 一行區別
| 層次 | 治理 | 看見 |
|---|
| 防護欄 | 文字——模型讀取和寫入什麼 | 提示詞內容、回應內容 |
| 代理防火牆 | 動作——代理做什麼 | 工具呼叫、MCP 派發、外向網路目的地 |
防護欄在上游呼叫之前(提示詞上)和之後(回應上)觸發。
防火牆在模型發出的或代理發出的每次工具呼叫上觸發——無論服務該輪次的模型或供應商。
2. 並排比較
| 維度 | 防護欄 | 代理防火牆 |
|---|
| 治理 | 提示詞文字和模型回應文字 | 工具呼叫、MCP 派發、外向目的地、代理成本 |
| 看見 | 使用者訊息、系統提示詞和模型的回覆 | 工具名稱、呼叫引數、模型發出的工具呼叫、外向主機/IP |
| 附加方式 | API 金鑰上的 guardrail_id | API 金鑰上的 firewall_policy_id |
| 規則類型 | keyword、regex、pii、max_chars、external、llm_judge、grounding | 工具名稱 glob + 引數子句 + 外向範圍 + 技能擁有權 |
| 範例威脅 | 提示詞中的 PII、回應中的 API 密鑰、越獄、離題輸出、過大的上下文 | 危險工具呼叫、SSRF、資料外洩、失控代理成本迴圈、未批准的 MCP 伺服器 |
| 裁決 / 動作 | block(HTTP 400 guardrail_blocked)、mask、flag | allow、audit、deny(HTTP 400 firewall_blocked)、sanitize、pending_approval、cap_cost |
| 何時觸發 | 輸入階段:模型呼叫之前;輸出階段:模型回覆之後 | 在模型發出的或代理發出的每次工具呼叫上 |
| 影子 / 觀察模式 | 否——防護欄要麼觸發要麼不觸發 | 是——影子模式將強制執行裁決降級為 audit 以安全推出 |
3. 威脅 → 哪個層次
使用此表格將新的安全要求路由到正確的控制:
| 威脅 | 使用 |
|---|
| 使用者訊息中的 PII | 防護欄——輸入 pii 規則(mask / block) |
| 模型回應中的密鑰 | 防護欄——輸出密鑰規則 |
危險工具呼叫(shell.exec rm -rf /) | 防火牆——工具 glob + 引數子句上的 deny |
| 透過外向 URL 的 SSRF / 資料外洩 | 防火牆——外向允許/拒絕清單 |
| 來自不可信內容的提示注入 | 兩者——輸入防護欄 + 防火牆允許清單 |
| 工具引數中的密鑰 | 防火牆 sanitize + 防護欄密鑰規則 |
| 越獄 / 政策繞過 | 防護欄——llm_judge / 關鍵字 / 正規表示式 |
| 過大的提示詞或權杖成本 | 防護欄——max_chars 規則 |
| 失控的代理支出(成本迴圈) | 防火牆——cap_cost 裁決 |
| 未批准的 MCP 伺服器 | 防火牆——MCP 表面 deny / pending_approval |
| 來自工具結果的敏感資料 | 防護欄——回應上的輸出規則 |
每個配對的深層「為何」在
威脅深入頁面上。
4. 兩者都用——自主等級一起設定它們
防護欄和防火牆被設計為組合,而不是競爭。一個請求通過兩個平面:
- 輸入防護欄執行——提示詞文字被審查並可選擇遮罩。
- 模型呼叫——(可能已淨化的)提示詞到達上游模型。
- 防火牆——模型發出的每次工具呼叫被評估。
- 輸出防護欄執行——模型的回應文字被審查。
同時設定兩者的最快方式是自主等級——一個設定在一次交易中原子性地
為整個工作區寫入防火牆政策和防護欄政策的設定,支援一鍵還原:
| 自主等級 | 防火牆姿態 | 防護欄姿態 |
|---|
tight | 預設拒絕;封鎖破壞性 shell + SSRF 外向請求 | PII Shield + Secrets Blocker 開啟 |
balanced | 預設稽核;拒絕破壞性 shell | PII Shield 純稽核模式(標記 PII) |
permissive | 沒有強制執行規則;觀察模式開啟 | 不強制執行 |
從防火牆主控台套用自主等級(POST /api/workspace/firewall/autonomy,
Developer+),然後從那裡獨立調整每個平面。
5. 摘要
防護欄擁有文字;防火牆擁有動作——兩者都執行,讓自主等級將它們串聯起來,
一旦你能看到代理的真實流量,就獨立收緊每個平面。
防護欄
規則類型、PII 偵測、LLM 評審、評測工具和 API 參考。
代理防火牆
裁決、表面、自主等級、HITL 審批和 API 參考。