1. LLM jailbreak 防御においてゲートウェイスクリーニングが重要な理由
モデル自身の安全トレーニングは最初の防衛線であり、唯一の防衛線ではありません。 モデルは新しい攻撃コーパスで再トレーニングされますが、jailbreak フレーズはトレーニング サイクルよりも速く進化します。ゲートウェイルールは決定的に発火します — モデルの内部 状態に依存しません — そして、組み込みのガードレールが弱いかもしれないファインチューニング モデルやオープンウェイトを含む、キーの背後にあるすべてのモデルに等しく適用されます。 ゲートウェイスクリーニングは監査証跡も提供します。発火するすべてのルールはワークスペースの Matches フィードに記録されます — ルールタイプ、アクション、詳細、ステージ — モデルが最終的に何を返したかに関わらず。2. Jailbreak スクリーニングの 2 つのルールタイプ
OrcaRouter のガードレールエンジンは 2 つの補完的なアプローチを提供します。 多層防御のために一緒に使用します。セマンティックチェック — llm_judge
llm_judge ルールはワークスペース内のモデルに対してセマンティックチェックを実行します。
何が jailbreak の試みとみなされるかを説明するルーブリックを書きます;エンジンは
JSON スキーマの付録を追加して、モデルがパース可能な判定を返すようにします。
judge_fail_open: true(デフォルト)は judge のタイムアウトまたはエラーがテレメトリとして
記録されリクエストが継続することを意味します — 安全性が低下し、可用性が維持されます。
見逃されたチェックがユースケースにとって許容できない場合は false に設定して
フェイルクローズします。
judge 呼び出しはワークスペースのチャンネルを経由してルーティングされます;トークンは
judge サブラインとして課金・帰属されます。
リテラル拒否リスト — keyword と regex
既知の jailbreak フレーズと構造的パターンには、keyword と regex ルールが決定的で
ゼロレイテンシです — ネットワーク呼び出しなしにホットパスで実行します。
keyword は大文字小文字を区別しない部分文字列マッチです。do anything now などの
用語は Do Anything Now や you can do anything now にもマッチします。
regex は RE2 パターンを受け付けます(線形時間、後方参照なし)。エンコードトリック
パターンやリテラルリストがカバーできない構造的バリアントに使用します。
3. 出力ステージスクリーニング
入力スクリーニングが試みを捕捉します。出力ステージスクリーニングが成功した バイパスを捕捉します — なぜであれ生成されるべきでなかったレスポンスを。 クライアントに到達する前に許可されないコンテンツを含むレスポンスをフラグまたは ブロックするために、stage: "output" で 2 番目の llm_judge または keyword ルールを
追加します。
ストリーミング vs. 非ストリーミング
ここではアクションが重要です:| アクション | 非ストリーミング | ストリーミング |
|---|---|---|
block | レスポンスが差し控えられます;HTTP 400 guardrail_blocked | スキャナーがストリームを途中で切り取り、置換メッセージを発行します — ブロックされたコンテンツはクライアントに到達しません |
mask | マッチが返されたテキストでリダクトされます | 現在は非ストリーミングレスポンスにのみ適用されます;インバンドストリームの書き換えはロードマップにあります |
block が正しく動作します。
ブロックされたリクエストはクォータを消費しません。出力ステージのブロックは
レスポンスが拒否された後に事前消費されたクォータを返金します。発呼者は
HTTP 400
guardrail_blocked を受け取り、ガードレールと発火したルールを示します。4. Jailbreak 安全プリセット
コンソールには Prompt-Injection Basics と並んで Safety テンプレートカテゴリに Jailbreak プリセットが含まれています。既製の出発点として、入力llm_judge ルールと
既知の jailbreak フレーズの keyword 拒否リストを組み合わせます。
適用するには:/console/guardrails を開く → New guardrail → テンプレートライブラリを
閲覧 → Safety → Jailbreak。プリセットはシードです — ルーブリックを編集し、
keyword リストを拡張し、アプリケーションのニーズに合わせて出力ステージルールを追加します。
5. 出荷前にポリシーをテストする
Jailbreak ガードレールを本番キーにアタッチする前に、ガードレールエディタの Eval タブで eval / レッドチームハーネスで検証します。- バンドルされた敵対的コーパス — ゲートウェイは jailbreak バリアント、多言語回避、 エンコードトリックを含むレッドチームセットを含みます。実際のトラフィックを見る前に それらに対してポリシーを実行して捕捉率を測定します。
- カスタムコーパス — 独自の JSONL をアップロードして、ドメインや脅威モデルに 固有のフレーズに対してテストします。
- 偽陽性コーパス — 敵対的なものと並んで良性セットが含まれています。両方を 実行して正当なトラフィックをブロックしていないことを確認します。
- Eval 実行はスコアとともにリスト表示されます;実行を開くとサンプルごとに 失敗を検査してルーブリックをチューニングできます。
6. 推奨されるポリシー形状
堅牢な jailbreak ポリシーはひとつのガードレールに 3 つのルールを重ねます:| # | ルール | ステージ | アクション | 理由 |
|---|---|---|---|---|
| 1 | keyword — 既知の jailbreak フレーズ | input | block | ゼロレイテンシ;既知のフレーズを決定的に捕捉 |
| 2 | llm_judge — jailbreak 意図ルーブリック | input | block | keyword リストが見逃す新しいバリアントとエンコードトリックを捕捉 |
| 3 | llm_judge — 許可されないレスポンスルーブリック | output | block | 多層防御:成功したバイパスをクライアントに到達する前にブロック |
block に
プロモートします。flag アクションと shadow mode を使用した
observe → shadow → enforce ロールアウトパターンについては
強制モードを参照してください。
7. プロンプトインジェクションとの関係
Jailbreak とプロンプトインジェクションは異なるが重複する脅威です:- Jailbreak はモデルの安全トレーニングを標的にします — 攻撃者が直接ユーザー メッセージを制御し、ガードレールを抑制するよう作成します。
- プロンプトインジェクション は指示に従うことを標的にします — 信頼されていない コンテンツ(Web ページ、ツール結果、ドキュメント)がモデルが指示として扱う指示を 運びます。
llm_judge と keyword ルールが両方を捕捉します;ルーブリックが異なります。
信頼されていないドキュメントや Web コンテンツを取り込むエージェントワークロードでは、
jailbreak スクリーニングと並行してインジェクションスクリーニングを実行します。
インジェクション固有のルールパターンについては
プロンプトインジェクションを参照してください。
ガードレールリファレンス
ルールタイプ、アクション、ステージ、LLM judge、eval ハーネス、Matches フィードの
完全リファレンス。
プロンプトインジェクション
エージェントパイプラインの信頼されていないコンテンツからインジェクションされた
指示のスクリーニング。
