1. 為何閘道篩查對 LLM 越獄防禦很重要
模型自身的安全訓練是第一道防線,而不是唯一的。模型在新的攻擊語料庫上重新訓練, 但越獄短語的演化比訓練周期更快。閘道規則確定性地觸發——它不依賴於模型的內部狀態—— 並且它平等地適用於你金鑰後面的每個模型,包括可能有更弱內建防護欄的微調模型和開放權重模型。 閘道篩查也給你一個稽核軌跡。每個觸發的規則都落入工作區 Matches 動態—— 規則類型、動作、詳情、階段——獨立於模型最終返回了什麼。2. 越獄篩查的兩種規則類型
OrcaRouter 的防護欄引擎提供兩種互補的方法。一起使用它們以獲得深度防禦。語義檢查——llm_judge
llm_judge 規則對你工作區中的模型執行語義檢查。你撰寫一個描述什麼算作越獄嘗試的規則;
引擎附加一個 JSON-schema 附錄,使模型返回可解析的裁決。
judge_fail_open: true(預設)意味著評審逾時或錯誤被記錄為遙測,請求繼續——
安全性降級,可用性得以保留。如果遺漏一次檢查對你的使用案例來說是不可接受的,
將其設定為 false 以失敗關閉。
評審呼叫透過你的工作區通道路由;權杖被計費並歸因為評審子項。
字面拒絕清單——keyword 和 regex
對於已知的越獄短語和結構模式,keyword 和 regex 規則是確定性的且增加零延遲——
它們在熱路徑上執行,沒有網路呼叫。
keyword 是不分大小寫的子字串匹配。像 do anything now 這樣的術語也匹配
Do Anything Now 和 you can do anything now。
regex 接受 RE2 模式(線性時間,沒有反向引用)。用它來處理字面清單無法涵蓋的
編碼技巧模式或結構變體。
3. 輸出階段篩查
輸入篩查捕捉嘗試。輸出階段篩查捕捉成功的繞過——一個不管原因都不應該被產生的回應。 在stage: "output" 添加第二個 llm_judge 或 keyword 規則,在回應到達客戶端之前
標記或封鎖包含不允許內容的回應。
串流與非串流
動作在這裡很重要:| 動作 | 非串流 | 串流 |
|---|---|---|
block | 回應被扣留;HTTP 400 guardrail_blocked | 掃描器在傳輸途中切斷串流並發出替代訊息——被封鎖的內容永遠不會到達客戶端 |
mask | 在返回的文字中匹配項被遮罩 | 目前僅適用於非串流回應;帶內串流改寫在規劃路線圖上 |
block 正確運作。
被封鎖的請求不消耗配額。輸出階段封鎖在回應被拒絕後退還預先消耗的配額。
呼叫者接收 HTTP 400
guardrail_blocked,命名防護欄和觸發的規則。4. 越獄安全預設值
主控台在 Safety 模板類別中附帶一個 Jailbreak 預設值,與 Prompt-Injection Basics 並排。 它結合了輸入llm_judge 規則和已知越獄短語的 keyword 拒絕清單,作為即用的起點。
套用它:開啟 /console/guardrails → New guardrail → 瀏覽模板庫 → Safety → Jailbreak。
預設值是種子——編輯規則、擴展關鍵字清單,並添加輸出階段規則以符合你應用程式的需求。
5. 在發佈之前測試你的政策
在將越獄防護欄附加到生產金鑰之前,在防護欄編輯器的 Eval 分頁中 的eval / 紅隊工具中驗證它。- 捆綁的對抗性語料庫——閘道附帶紅隊集合,包括越獄變體、多語言逃避和編碼技巧。 在見到真實流量之前對它們執行你的政策以衡量捕捉率。
- 自訂語料庫——上傳你自己的 JSONL,針對你領域或威脅模型特有的短語進行測試。
- 誤報語料庫——良性集合與對抗性集合一起附帶。兩者都執行以確認你沒有封鎖合法流量。
- 評測執行會連同分數一起列出;開啟執行以逐樣本檢視失敗項並調整規則。
6. 推薦的政策形狀
強健的越獄政策在單一防護欄中疊加三個規則:| # | 規則 | 階段 | 動作 | 為何 |
|---|---|---|---|---|
| 1 | keyword——已知越獄短語 | input | block | 零延遲;確定性地捕捉已知短語 |
| 2 | llm_judge——越獄意圖規則 | input | block | 捕捉關鍵字清單遺漏的新穎變體和編碼技巧 |
| 3 | llm_judge——不允許回應規則 | output | block | 深度防禦:在成功的繞過到達客戶端之前封鎖它 |
block。
參見強制執行模式,
了解使用 flag 動作和影子模式的觀察 → 影子 → 強制執行推出模式。
7. 與提示注入的關係
越獄和提示注入是不同但重疊的威脅:- 越獄針對模型的安全訓練——攻擊者控制直接的使用者訊息並精心設計它以壓制防護欄。
- 提示注入針對指令跟隨——不可信的內容(網頁、工具結果、文件)攜帶模型視為指令的指令。
llm_judge 和 keyword 規則捕捉兩者;規則有所不同。對於攝取不可信文件或
網頁內容的代理工作負載,在越獄篩查旁邊執行注入篩查。
參見提示注入了解注入特定的規則模式。
防護欄參考
規則類型、動作、階段、LLM 評審、評測工具和 Matches 動態的完整參考。
提示注入
在代理管道中篩查來自不可信內容的注入指令。
