跳转到主要内容
简短的答案:防护栏治理文本;防火墙治理动作。 它们是互补的——一个请求同时流经两者——一起配置它们最快的方式是 自治级别 本页的其余部分针对你需要知道哪个层拥有特定威胁的情况。
所需角色。 任何工作区成员都可以读取策略和防护栏 Matches 信息流; 防火墙 Events 信息流需要 Developer 角色。创建或编辑防护栏或防火墙 策略也需要 Developer 或以上。

1. 一句话区别

治理看到
防护栏文本——模型读取和写入什么提示词内容、响应内容
智能体防火墙动作——智能体做什么工具调用、MCP 派发、出站网络目的地
防护栏在上游调用之前(对提示词)和之后(对响应)触发。防火墙对 模型发出的或智能体发出的每一次工具调用触发——无论哪个模型或 提供商服务了该轮。

2. 并排比较

维度防护栏智能体防火墙
治理提示词文本和模型响应文本工具调用、MCP 派发、出站目的地、智能体成本
看到用户消息、系统提示词和模型的回复工具名、调用参数、模型发出的工具调用、出站 host/IP
附加方式API 密钥上的 guardrail_idAPI 密钥上的 firewall_policy_id
规则类型keywordregexpiimax_charsexternalllm_judgegrounding工具名 glob + 参数子句 + 出站范围 + 技能所有权
示例威胁提示词中的 PII、响应中的 API 密钥、越狱、跑题输出、过大上下文危险工具调用、SSRF、数据外泄、失控的智能体成本循环、未批准的 MCP 服务器
判定/动作block(HTTP 400 guardrail_blocked)、maskflagallowauditdeny(HTTP 400 firewall_blocked)、sanitizepending_approvalcap_cost
何时触发输入阶段:模型调用之前;输出阶段:模型回复之后对模型发出的或智能体发出的每一次工具调用
影子/观察模式没有——防护栏要么触发要么不触发有——影子模式将执行性判定降级为 audit 以安全推出

3. 威胁 → 哪个层

使用此表将新的安全需求路由到正确的控制:
威胁选用
用户消息中的 PII防护栏——输入 pii 规则(mask / block
模型响应中的密钥防护栏——输出密钥规则
危险工具调用(shell.exec rm -rf /防火墙——工具 glob + 参数子句上的 deny
通过出站 URL 的 SSRF/数据外泄防火墙——出站允许/拒绝列表
来自不可信内容的提示注入两者——输入防护栏 + 防火墙允许列表
工具参数中的密钥防火墙 sanitize + 防护栏密钥规则
越狱/策略绕过防护栏——llm_judge / keyword / regex
过大提示词或令牌成本防护栏——max_chars 规则
失控的智能体消费(成本循环)防火墙——cap_cost 判定
未批准的 MCP 服务器防火墙——MCP 执行面 deny / pending_approval
工具结果中的敏感数据防护栏——响应上的输出规则
每个配对背后深层的”为什么”在 威胁深入解析页面上。

4. 两者都用——自治级别同时设置它们

防护栏和防火墙被设计为组合,而不是竞争。一个请求同时通过 两个平面:
  1. 输入防护栏运行——提示词文本被筛查并可选地被脱敏。
  2. 模型调用——(可能已净化的)提示词到达上游模型。
  3. 防火墙——模型发出的每一次工具调用被评估。
  4. 输出防护栏运行——模型的响应文本被筛查。
同时配置两者最快的方式是自治级别——一个单一设置,原子性地 为整个工作区写入防火墙策略和防护栏策略,支持一键撤销:
自治级别防火墙姿态防护栏姿态
tight默认拒绝;拦截破坏性 shell + SSRF 出站PII Shield + Secrets Blocker 开启
balanced默认审计;拒绝破坏性 shellPII Shield 仅审计模式(flag PII)
permissive无执行规则;观察模式开启无执行
从防火墙控制台应用自治级别(POST /api/workspace/firewall/autonomy, Developer+),然后从那里独立调优每个平面。

5. 总结

防护栏拥有文本;防火墙拥有动作——两者都运行,让自治级别将它们 连接在一起,一旦你能看到智能体的真实流量,就独立收紧每个平面。

防护栏

规则类型、PII 检测、LLM judge、eval 工具和 API 参考。

智能体防火墙

判定、执行面、自治级别、HITL 审批和 API 参考。