1. 为什么网关筛查对 LLM 越狱防御很重要
模型自身的安全训练是第一道防线,而不是唯一的防线。模型会在 新的攻击语料库上重新训练,但越狱短语的演变速度比训练周期快。 网关规则是确定性触发的——它不依赖于模型的内部状态——并且对你 密钥背后的每个模型同等适用,包括内置防护栏可能更弱的微调模型 和开放权重模型。 网关筛查还为你提供审计追踪。每条触发的规则都落入工作区 Matches 信息流——规则类型、动作、详情、阶段——独立于 模型最终返回什么。2. 越狱筛查的两种规则类型
OrcaRouter 的防护栏引擎提供两种互补的方法。将它们结合使用 以进行深度防御。语义检查——llm_judge
llm_judge 规则对你工作区中的某个模型运行语义检查。你写一个
描述什么算作越狱尝试的 rubric;引擎追加一个 JSON-schema 附录,
让模型返回可解析的判定。
judge_fail_open: true(默认)意味着 judge 超时或错误被记录为
遥测,请求继续——安全性降级,可用性得以保留。如果漏掉一次检查
对你的用例不可接受,将其设置为 false 以故障关闭。
judge 调用通过你的工作区通道路由;令牌被计费并归因为 judge
子项。
字面拒绝列表——keyword 和 regex
对于已知的越狱短语和结构性模式,keyword 和 regex 规则是
确定性的,零延迟——它们在热路径上运行,不进行网络调用。
keyword 是不区分大小写的子串匹配。像 do anything now 这样
的词也匹配 Do Anything Now 和 you can do anything now。
regex 接受 RE2 模式(线性时间,无反向引用)。用它来处理
字面列表无法覆盖的编码技巧模式或结构变体。
3. 输出阶段筛查
输入筛查捕获尝试。输出阶段筛查捕获成功的绕过——一个无论出于 何种原因都不应该产生的响应。 在stage: "output" 添加第二条 llm_judge 或 keyword 规则,
在不允许的内容到达客户端之前 flag 或拦截它。
流式传输 vs. 非流式传输
动作在这里很重要:| 动作 | 非流式 | 流式 |
|---|---|---|
block | 响应被拦截;HTTP 400 guardrail_blocked | 扫描器在中途切断流,并发出替换消息——被拦截的内容永远不会到达客户端 |
mask | 匹配在返回的文本中被脱敏 | 目前仅适用于非流式响应;带内流式改写在路线图上 |
block 工作正确。
被拦截的请求不消耗配额。输出阶段拦截在响应被拒绝后退回
预先扣除的配额。调用者收到 HTTP 400
guardrail_blocked,命名
触发的防护栏和规则。4. 越狱安全预设
控制台在 Safety 模板类别中附带一个 Jailbreak 预设, 与 Prompt-Injection Basics 并列。它组合了一条输入llm_judge
规则和已知越狱短语的 keyword 拒绝列表,作为现成的起点。
要应用它:打开 /console/guardrails → New guardrail → 浏览
模板库 → Safety → Jailbreak。预设是种子——编辑 rubric,
扩展关键词列表,并添加输出阶段规则以匹配你的应用需求。
5. 发布前测试你的策略
在将越狱防护栏附加到生产密钥之前,在防护栏编辑器的 Eval 标签页 上的 eval/红队工具中验证它。- 捆绑的对抗性语料库——网关附带红队集,包括越狱变体、 多语言规避和编码技巧。在其遇到真实流量之前,对照它们运行 你的策略以衡量捕获率。
- 自定义语料库——上传你自己的 JSONL,针对特定于你的领域 或威胁模型的短语进行测试。
- 误报语料库——良性集与对抗性集一起提供。两者都运行以确认 你没有拦截合法流量。
- Eval 运行以分数列出;打开一次运行,逐样本检查失败项并 调优 rubric。
6. 推荐的策略形状
一个健壮的越狱策略在单个防护栏中分层三条规则:| # | 规则 | 阶段 | 动作 | 为什么 |
|---|---|---|---|---|
| 1 | keyword——已知越狱短语 | input | block | 零延迟;确定性捕获已知短语 |
| 2 | llm_judge——越狱意图 rubric | input | block | 捕获关键词列表遗漏的新颖变体和编码技巧 |
| 3 | llm_judge——不允许响应 rubric | output | block | 深度防御:在成功的绕过到达客户端之前拦截它 |
block。参见
执行模式了解使用 flag
动作和影子模式的观察 → 影子 → 执行推出模式。
7. 与提示注入的关系
越狱和提示注入是不同但重叠的威胁:- 越狱针对模型的安全训练——攻击者控制直接用户消息,并将 其制作成压制防护栏的形式。
- 提示注入针对指令跟随——不可信内容(网页、工具结果、 文档)携带模型视为指令的指令。
llm_judge 和 keyword 规则捕获两者;rubric 有所不同。
对于摄取不可信文档或网页内容的智能体工作负载,与越狱筛查一起
运行注入筛查。参见提示注入
了解注入专用规则模式。
防护栏参考
规则类型、动作、阶段、LLM judge、eval 工具和 Matches 信息流
的完整参考。
提示注入
筛查智能体管道中不可信内容中的注入指令。
