简短的答案:防护栏治理文本;防火墙治理动作。
它们是互补的——一个请求同时流经两者——一起配置它们最快的方式是
自治级别。
本页的其余部分针对你需要知道哪个层拥有特定威胁的情况。
所需角色。 任何工作区成员都可以读取策略和防护栏 Matches 信息流;
防火墙 Events 信息流需要 Developer 角色。创建或编辑防护栏或防火墙
策略也需要 Developer 或以上。
1. 一句话区别
| 层 | 治理 | 看到 |
|---|
| 防护栏 | 文本——模型读取和写入什么 | 提示词内容、响应内容 |
| 智能体防火墙 | 动作——智能体做什么 | 工具调用、MCP 派发、出站网络目的地 |
防护栏在上游调用之前(对提示词)和之后(对响应)触发。防火墙对
模型发出的或智能体发出的每一次工具调用触发——无论哪个模型或
提供商服务了该轮。
2. 并排比较
| 维度 | 防护栏 | 智能体防火墙 |
|---|
| 治理 | 提示词文本和模型响应文本 | 工具调用、MCP 派发、出站目的地、智能体成本 |
| 看到 | 用户消息、系统提示词和模型的回复 | 工具名、调用参数、模型发出的工具调用、出站 host/IP |
| 附加方式 | API 密钥上的 guardrail_id | API 密钥上的 firewall_policy_id |
| 规则类型 | keyword、regex、pii、max_chars、external、llm_judge、grounding | 工具名 glob + 参数子句 + 出站范围 + 技能所有权 |
| 示例威胁 | 提示词中的 PII、响应中的 API 密钥、越狱、跑题输出、过大上下文 | 危险工具调用、SSRF、数据外泄、失控的智能体成本循环、未批准的 MCP 服务器 |
| 判定/动作 | block(HTTP 400 guardrail_blocked)、mask、flag | allow、audit、deny(HTTP 400 firewall_blocked)、sanitize、pending_approval、cap_cost |
| 何时触发 | 输入阶段:模型调用之前;输出阶段:模型回复之后 | 对模型发出的或智能体发出的每一次工具调用 |
| 影子/观察模式 | 没有——防护栏要么触发要么不触发 | 有——影子模式将执行性判定降级为 audit 以安全推出 |
3. 威胁 → 哪个层
使用此表将新的安全需求路由到正确的控制:
| 威胁 | 选用 |
|---|
| 用户消息中的 PII | 防护栏——输入 pii 规则(mask / block) |
| 模型响应中的密钥 | 防护栏——输出密钥规则 |
危险工具调用(shell.exec rm -rf /) | 防火墙——工具 glob + 参数子句上的 deny |
| 通过出站 URL 的 SSRF/数据外泄 | 防火墙——出站允许/拒绝列表 |
| 来自不可信内容的提示注入 | 两者——输入防护栏 + 防火墙允许列表 |
| 工具参数中的密钥 | 防火墙 sanitize + 防护栏密钥规则 |
| 越狱/策略绕过 | 防护栏——llm_judge / keyword / regex |
| 过大提示词或令牌成本 | 防护栏——max_chars 规则 |
| 失控的智能体消费(成本循环) | 防火墙——cap_cost 判定 |
| 未批准的 MCP 服务器 | 防火墙——MCP 执行面 deny / pending_approval |
| 工具结果中的敏感数据 | 防护栏——响应上的输出规则 |
每个配对背后深层的”为什么”在
威胁深入解析页面上。
4. 两者都用——自治级别同时设置它们
防护栏和防火墙被设计为组合,而不是竞争。一个请求同时通过
两个平面:
- 输入防护栏运行——提示词文本被筛查并可选地被脱敏。
- 模型调用——(可能已净化的)提示词到达上游模型。
- 防火墙——模型发出的每一次工具调用被评估。
- 输出防护栏运行——模型的响应文本被筛查。
同时配置两者最快的方式是自治级别——一个单一设置,原子性地
为整个工作区写入防火墙策略和防护栏策略,支持一键撤销:
| 自治级别 | 防火墙姿态 | 防护栏姿态 |
|---|
tight | 默认拒绝;拦截破坏性 shell + SSRF 出站 | PII Shield + Secrets Blocker 开启 |
balanced | 默认审计;拒绝破坏性 shell | PII Shield 仅审计模式(flag PII) |
permissive | 无执行规则;观察模式开启 | 无执行 |
从防火墙控制台应用自治级别(POST /api/workspace/firewall/autonomy,
Developer+),然后从那里独立调优每个平面。
5. 总结
防护栏拥有文本;防火墙拥有动作——两者都运行,让自治级别将它们
连接在一起,一旦你能看到智能体的真实流量,就独立收紧每个平面。
防护栏
规则类型、PII 检测、LLM judge、eval 工具和 API 参考。
智能体防火墙
判定、执行面、自治级别、HITL 审批和 API 参考。