ローンチ前にエージェントをレッドチームする

エージェントをユーザーの前に置く日は、ジェイルブレイクがコンテンツポリシーをまっすぐ通り抜けることや、統制し忘れたツールが最初の run で発火することを知るのに最悪の日です。ローンチ前のレッドチームは、それらの驚きを、出荷前に読める数値に変えます — そして OrcaRouter はそれを生み出す 3 つの方法を提供します。すべて、あなたのエージェントコードに触れることなく、意図しなかった単一のライブリクエストを送ることもなく。このレシピはドライランパスです：既知の攻撃に対してポリシーを測定し、自分のトラフィックに対してそれをシャドウし、コミットする前によりタイトな姿勢をシミュレートします。

ここにあるすべては読み取り専用かサンドボックスです — ユーザーに見えるブロックなし、本番トラフィックへの影響なし。（キーワード、正規表現、PII ルールは完全にローカルで実行されます；llm_judge ルールは依然として設定されたモデルを呼び出すため、judge ポリシーに対する eval はその呼び出しを行います。）要点は、あなたの条件で、ローンチ前に物事を壊すことです。

1. ローンチ前に AI エージェントをレッドチームする方法

ローンチ前のレッドチームは 3 つの質問に答え、OrcaRouter にはそれぞれに 1 つのツールがあります：

私のガードレールは攻撃を捕捉するか？

ガードレールの Eval ハーネスをバンドルされた敵対的コーパスに対して実行し、 precision / recall / F1 を読み返します。

私のファイアウォールは何を壊すか？

シャドウモードをオンにして、どの実際のツール呼び出しが denyされるかを — まだどれも deny せずに — 監視します。

よりタイトな姿勢は安全か？

自律性レベルをシミュレートして、適用前に、あなたのトラフィックに対してそれが何を変えるかを正確にプレビューします。

最初はあなたのガードレール（テキストプレーン）をテストします；2 番目と 3 番目はあなたのファイアウォール（アクションプレーン）をテストします。実際のローンチチェックリストは 3 つすべてを実行します。

2. 敵対的コーパスに対してガードレールをスコアリングする

コンテンツポリシーが攻撃者との接触を生き延びるかを知る最速の道は、既知の攻撃のコーパスをそれに投げつけてスコアを読むことです。ガードレールエディタの Eval タブはまさにそれを行います：コーパス内のすべてのサンプルをあなたの現在のポリシーを通して再生し、判定を各サンプルの期待される結果と比較します — コーパスをローカルであなたのルールに対して再生し、決してライブトラフィックに対してではなく。 OrcaRouter は、あなたが自分のものを調達しなくて済むよう、バンドルされたレッドチームコーパスを出荷しています。その中には：

コーパス	それが何か
`advbench_harmful_behaviors`	典型的な敵対的サフィックスのターゲットセット — すべての行はガードレールがブロックすべき安全でないリクエスト。
`anthropic_hh_redteam`	アシスタントに対する実際のマルチターンの人間レッドチーム書き起こし。
`deepset_prompt_injections`	ラベル付けされたプロンプトインジェクション vs 良性リクエスト — 入力ステージブロックのための precision/recall ベースライン。
`databricks_dolly_benign`	純粋な良性ベースライン：過度に厳格なポリシーはこれらをひとつもブロックすべきではありません。

常に攻撃コーパスを良性コーパスとペアにしてください。攻撃の 100% をブロックするが databricks_dolly_benign もブロックするポリシーは安全ではありません — 使い物になりません。良性の run があなたの誤検出予算です。

バンドルされた deepset_prompt_injections コーパスに対して eval を実行します：

curl https://api.orcarouter.ai/api/guardrail/123/eval \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -H "Content-Type: application/json" \
  -d '{ "corpus_name": "deepset_prompt_injections" }'

/api/guardrail/* ルートは、sk-orca-... リレーキーではなく、あなたのコンソールセッション / アクセストークンを使います — そしてそれらは X-Workspace-Id 経由でワークスペーススコープされます。実際には、これをコンソールの Eval タブから実行することになります；curl は形を示すためにここにあります。eval の実行は任意の Member に開放されています。

run は、期待されるアクションに対して計算された検出メトリクスを報告します：

TP / FP / FN / TN — 真/偽の陽性と陰性、ここで「偽陽性」には、攻撃を間違った アクションクラスで捕捉すること（例：ブロックを期待したのにマスキング）が含まれます。
Precision / Recall / F1 — 見出しの数値。低い recall は攻撃がすり抜けることを、低い precision は良性トラフィックをブロックしていることを意味します。

run を開いて失敗をサンプルごとに検査し、ルールや judge ルーブリックをチューニングし、スコアが保たれるまで再実行します。カスタムコーパスも同じように機能します — あなた自身の JSONL をアップロードして（Developer+）、あなたの製品が直面する正確な攻撃の形に対してテストします。

プロンプトインジェクション防御がどこに存在するか。 バンドルされた Prompt-Injection Basics プリセットは、flag アクションのキーワードルールです — ユーザーをブロックせずに、一般的なジェイルブレイク句を表面化します。どのキーワードリストも捕捉しない意味論的なインジェクション意図には、llm_judge ルールを追加し、それを同じようにレッドチームします： deepset_prompt_injections と anthropic_hh_redteam に対して eval し、F1 を読みます。ガードレールリファレンスを参照。

3. 実トラフィックに対してファイアウォールをシャドウモードにする

ガードレール eval は、固定コーパスに対してテキストをテストします。対照的にあなたのファイアウォールは、エージェントが実際に何をするかの乱雑な現実に対してテストされる必要があります — そしてローンチ前にそれを行う最も安全な道はシャドウモードです。シャドウモードは、ファイアウォールにすべてのツール呼び出しを本番と全く同様に評価・ログさせるが、すべての強制判定を audit に格下げするポリシーごとのフラグです。deny は、理由に [shadow] would … が前置された audit 行になります。何もブロックされません。何も壊れません。しかし Events フィードは、いまやあなたのポリシーが拒否したはずの呼び出しの正確なリストを示します。これがファイアウォールのレッドチームです：あなたの最も厳格な意図したポリシーを作成し、シャドウモードをオンにし、現実的なローンチリハーサルでエージェントを実行し、それから [shadow] would … イベントを読みます。

ポリシーを作成し、それをシャドウする

コンソール（Developer+）で強制ポリシーを構築します — ローンチのドライランには、 default_verdict を audit に設定し、出荷予定の deny ルールを追加します。 シャドウモードをオンに切り替えます。これでポリシー全体が、強制せずにログします。

ローンチ当日のようにエージェントを動かす

シャドウされたポリシーがアタッチされたキーで、ゲートウェイに対して実際のエージェントフローを実行します。すべてのツール呼び出し — inbound、response、MCP ディスパッチ、 egress — が評価・ログされます。

would-block リストを読む

Firewall → Events（Developer+）を開き、[shadow] would … の理由でフィルタします。それぞれが、あなたのポリシーが本番で deny したはずの呼び出しです。すべてのエントリが denyしたい呼び出しであること — そして正当なものがリストにないこと — を確認します。

シャドウをオフにしてライブにする

would-block リストがクリーンになったら、シャドウモードをオフにします。次にマッチする呼び出しが本物で強制されます — 他の変更なし。

正しさだけでなくカバレッジのために、シャドウモードを観察モード（ワークスペース設定）とペアにします。観察モードは、どのポリシーにも解決されないすべてのツール呼び出しをギャップとしてログし、Discovered tools ビューを満たします — つまり、間違えたルールだけでなく、ルールを書き忘れたツールも捕捉します。強制モードを参照。

4. コミットする前によりタイトな姿勢をシミュレートする

3 番目のレッドチームの動きは最も安価です：より厳格な自律性レベルを適用する前に、それを シミュレートします。シミュレータは、tight（または任意のレベル）を適用することが、あなたのワークスペースの最近のトラフィックに対して何を変えるか — いくつの呼び出しが deny に切り替わるか — を、単一のポリシー行も書き込まずにプレビューします。

curl "https://api.orcarouter.ai/api/workspace/firewall/simulate?level=tight" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"

シミュレータの読み取りは任意の Member に開放されています。それを使って、ローンチ前に「私のエージェントは tight の準備ができているか？」に答えます：プレビューが、あなたのエージェントが依存する呼び出しへの拒否の壁を示すなら、go-live の後のインシデントではなく、go-live の前に和らげるべきルールがあります。

シミュレートはプレビューのみです — 決してあなたのポリシーを変更しません。自律性レベルの適用は別個の Developer+ アクションであり、ライブの結果がそれでも驚かせる場合のワンクリックの取り消しを持つひとつのトランザクションです。

5. ローンチ前レッドチームチェックリスト

3 つのパスを組み合わせれば、ローンチゲートが得られます：

パス	ツール	グリーンの条件
コンテンツポリシー	ガードレール Eval vs 攻撃 + 良性コーパス	攻撃で高 recall、良性でブロックなし
アクションポリシー	ファイアウォールシャドウモード vs リハーサルトラフィック	すべての `[shadow] would …` が意図的
カバレッジ	観察モード + Discovered tools	驚くツールがカバレッジギャップに座っていない
姿勢	ターゲット自律性レベルをシミュレート	プレビューが期待どおり

4 つすべてをグリーンで実行し、それから強制します：シャドウモードをオフにし、自律性レベルを適用します。すべてのバインディングがゲートウェイ内のキーに存在するため、ドライランからライブへの移行はデプロイではなく設定変更です — あなたのエージェントは以前と全く同様に https://api.orcarouter.ai/v1/... を呼び続けます。

出力ステージのマスキングとライブのレスポンススキャンはまだ成熟途上です — eval の run はルールのロジックをサンドボックスで証明しますが、本番で依存する前に、あなたの具体的なステージとストリーミングの組み合わせをガードレールの注記に対して確認してください。

6. 次のステップ

強制モード

Observe → shadow → enforce、このレシピがリハーサルする安全なロールアウト。

Secure Agents ベースライン

各自律性レベルが何を設定するか — そして simulate がそれをどうプレビューするか。

プロンプトインジェクション

あなたのガードレール eval がスコアリングしている脅威。

ライブにする

レッドチームが通った後の本番カットオーバー。

各パスの背後にある完全なエンジンについては、ガードレールとファイアウォールのリファレンス、そして関連する脅威を参照してください：ジェイルブレイクと危険なツール呼び出し。

​1. ローンチ前に AI エージェントをレッドチームする方法

私のガードレールは攻撃を捕捉するか？

私のファイアウォールは何を壊すか？

よりタイトな姿勢は安全か？

​2. 敵対的コーパスに対してガードレールをスコアリングする

​3. 実トラフィックに対してファイアウォールをシャドウモードにする

​4. コミットする前によりタイトな姿勢をシミュレートする

​5. ローンチ前レッドチームチェックリスト

​6. 次のステップ

強制モード

Secure Agents ベースライン

プロンプトインジェクション

ライブにする

1. ローンチ前に AI エージェントをレッドチームする方法

2. 敵対的コーパスに対してガードレールをスコアリングする

3. 実トラフィックに対してファイアウォールをシャドウモードにする

4. コミットする前によりタイトな姿勢をシミュレートする

5. ローンチ前レッドチームチェックリスト

6. 次のステップ