防护栏 vs. 智能体防火墙——何时使用哪个

简短的答案：防护栏治理文本；防火墙治理动作。 它们是互补的——一个请求同时流经两者——一起配置它们最快的方式是自治级别。本页的其余部分针对你需要知道哪个层拥有特定威胁的情况。

所需角色。 任何工作区成员都可以读取策略和防护栏 Matches 信息流；防火墙 Events 信息流需要 Developer 角色。创建或编辑防护栏或防火墙策略也需要 Developer 或以上。

1. 一句话区别

层	治理	看到
防护栏	文本——模型读取和写入什么	提示词内容、响应内容
智能体防火墙	动作——智能体做什么	工具调用、MCP 派发、出站网络目的地

防护栏在上游调用之前（对提示词）和之后（对响应）触发。防火墙对模型发出的或智能体发出的每一次工具调用触发——无论哪个模型或提供商服务了该轮。

维度	防护栏	智能体防火墙
治理	提示词文本和模型响应文本	工具调用、MCP 派发、出站目的地、智能体成本
看到	用户消息、系统提示词和模型的回复	工具名、调用参数、模型发出的工具调用、出站 host/IP
附加方式	API 密钥上的 `guardrail_id`	API 密钥上的 `firewall_policy_id`
规则类型	`keyword`、`regex`、`pii`、`max_chars`、`external`、`llm_judge`、`grounding`	工具名 glob + 参数子句 + 出站范围 + 技能所有权
示例威胁	提示词中的 PII、响应中的 API 密钥、越狱、跑题输出、过大上下文	危险工具调用、SSRF、数据外泄、失控的智能体成本循环、未批准的 MCP 服务器
判定/动作	`block`（HTTP 400 `guardrail_blocked`）、`mask`、`flag`	`allow`、`audit`、`deny`（HTTP 400 `firewall_blocked`）、`sanitize`、`pending_approval`、`cap_cost`
何时触发	输入阶段：模型调用之前；输出阶段：模型回复之后	对模型发出的或智能体发出的每一次工具调用
影子/观察模式	没有——防护栏要么触发要么不触发	有——影子模式将执行性判定降级为 `audit` 以安全推出

使用此表将新的安全需求路由到正确的控制：

威胁	选用
用户消息中的 PII	防护栏——输入 `pii` 规则（`mask` / `block`）
模型响应中的密钥	防护栏——输出密钥规则
危险工具调用（`shell.exec rm -rf /`）	防火墙——工具 glob + 参数子句上的 `deny`
通过出站 URL 的 SSRF/数据外泄	防火墙——出站允许/拒绝列表
来自不可信内容的提示注入	两者——输入防护栏 + 防火墙允许列表
工具参数中的密钥	防火墙 `sanitize` + 防护栏密钥规则
越狱/策略绕过	防护栏——`llm_judge` / keyword / regex
过大提示词或令牌成本	防护栏——`max_chars` 规则
失控的智能体消费（成本循环）	防火墙——`cap_cost` 判定
未批准的 MCP 服务器	防火墙——MCP 执行面 deny / `pending_approval`
工具结果中的敏感数据	防护栏——响应上的输出规则

每个配对背后深层的”为什么”在威胁深入解析页面上。

防护栏和防火墙被设计为组合，而不是竞争。一个请求同时通过两个平面：

同时配置两者最快的方式是自治级别——一个单一设置，原子性地为整个工作区写入防火墙策略和防护栏策略，支持一键撤销：

自治级别	防火墙姿态	防护栏姿态
`tight`	默认拒绝；拦截破坏性 shell + SSRF 出站	PII Shield + Secrets Blocker 开启
`balanced`	默认审计；拒绝破坏性 shell	PII Shield 仅审计模式（flag PII）
`permissive`	无执行规则；观察模式开启	无执行

从防火墙控制台应用自治级别（POST /api/workspace/firewall/autonomy， Developer+），然后从那里独立调优每个平面。

防护栏拥有文本；防火墙拥有动作——两者都运行，让自治级别将它们连接在一起，一旦你能看到智能体的真实流量，就独立收紧每个平面。

规则类型、PII 检测、LLM judge、eval 工具和 API 参考。

判定、执行面、自治级别、HITL 审批和 API 参考。