1. キーをアタッチする前に AI ガードレールポリシーをテストする理由
コンテンツポリシーには 2 つの失敗モードがあり、それらは反対方向に引っ張ります:- 見逃し — ルールが発火しなかったため、攻撃や漏洩がすり抜けます。
- 誤検知 — ルールが広すぎるため、良性のプロンプトがブロックまたはマスクされます。
どちらのツールも、管理 API(
/api/guardrail/*)を介して完全にあなたのセッション
上で実行されます — 決してリレーキーではありません。それらはテキストをローカルで
評価し、何もアップストリームに送信しないため、テスト実行はモデルクォータを
消費しません。2. Test タブ — 1 サンプル、即座の判定
すべてのガードレールエディタには Test タブがあります。サンプルを貼り付け、 ステージ(input または output)を選び、ポリシーの現在のドラフトを実行します。
完全な決定 — blocked、mutated、sanitized テキスト、そして violations の
リスト — が返ってくるため、保存する前に単一のルールが期待どおりに動作することを
証明できます。
Test タブは「このひとつのルールが正しいことをしたか」のためのものです。一度に
数百のプロンプトにわたってポリシーを測定するには、Eval を使います。
3. Eval タブ — コーパスに対してポリシーをスコアリングする
Eval タブは、ラベル付けされたサンプルのコーパスに対してガードレールを実行し、 それがどうスコアリングされたかを報告します:適合率、再現率、F1 を全体および カテゴリごとに、加えて間違えた正確なサンプル。llm_judge ルーブリックをチューニング
したり、block ルールが既知の攻撃ファミリーを捕捉することを証明したり、広すぎる
regex が良いトラフィックを拒否し始める前に捕捉したりするために使います。
実行は、進行するにつれて進捗をストリーム(完了サンプルごとに 1 イベント)し、後で
再オープンできる実行行を永続化します — queued → running → complete、ルールは
実行時にスナップショットされるため、後でガードレールを編集しても古い実行の判定を
書き換えることはありません。
バンドルされたコーパス
ゲートウェイに焼き込まれたレッドチームおよび良性のセット — プロンプト
インジェクション、jailbreak、PII / シークレット、多言語、過剰拒否。セットアップ
不要。
カスタム JSONL
独自のラベル付けされたセットをアップロードして、あなたの実トラフィック形状に
対してポリシーを測定します。
4. コーパスはどう見えるか(JSONL)
コーパスは JSONL です — 1 行に 1 つの JSON オブジェクト。各行はラベル付けされた サンプルです:評価するtext、それが属する stage、そしてポリシーが生成すべき
expected_action。ランナーは、ポリシーの実際の判定をそのラベルと比較して実行を
スコアリングします。
フィールドリファレンス
フィールドリファレンス
| フィールド | 意味 |
|---|---|
id | 行ごとに一意。必須 — 空の id の行は不正な形式として削除されます。 |
text | 評価するプロンプトまたは completion。必須。 |
stage | input または output — どのステージのルールでサンプルを実行するか。 |
expected_action | block、mask、flag、または ""(良性 — アクションは期待されない)。 |
category | カテゴリごとのメトリクスをバケット化する自由形式のラベル。 |
不正な形式の行は許容される、サイレントではない
不正な形式の行は許容される、サイレントではない
不正な JSON または欠落した
id/text を持つ行は、致命的ではなくスキップ
されてカウントされます — 単一のタイプミスが実行全体を吹き飛ばすことは決して
ありません。ローダーは長い複数行プロンプト向けにバッファを増やすため、ひとつの
JSON 文字列内に改行が埋め込まれたサンプルも問題なくパースされます。5. バンドルされたコーパス — レッドチームセット、セットアップゼロ
ゲートウェイは、すぐに実行できるキュレーションされたコーパスのカタログを同梱します — 各々が、ソース、ライセンス、言語カバレッジ、そしてピッカー内のサンプルプレビューを 持ちます。それらは、実トラフィックが見る攻撃面にまたがる 11 カテゴリに グループ化されています:| カテゴリ | 何を探るか |
|---|---|
prompt_injection | 指示オーバーライドおよび人間が書いたインジェクション提出。 |
jailbreak_single_turn | 実世界の実際の jailbreak + 学術的な行動ベースライン。 |
jailbreak_encoded_multiturn | base64 / ROT13 / leetspeak / ペイロード分割のプローブ。 |
indirect_agent | ツールを使うエージェントへのツール出力を通じて配信されるインジェクション。 |
multilingual | 低リソースを含む多言語にわたるネイティブスピーカーのレッドチームプロンプト。 |
pii_secrets | email、SSN、カード、IBAN、API キー、AWS キー、JWT。 |
toxicity | 有害生成プロンプトと過剰拒否のコントラスト。 |
bias | ステレオタイプと差別のプローブ。 |
hallucination | 敵対的な事実性 / 忠実性のセット。 |
hazardous_knowledge | デュアルユースの化学 / 生物 / サイバー知識のプローブ。 |
over_refusal_benign | 安全でなさそうに見える安全なプロンプト — あなたの誤検知リグレッションガード。 |
バンドルされた
owasp_llm_top10 コーパスは、OWASP LLM Top 10 攻撃ファミリー
(プロンプトインジェクション、jailbreak、安全でない出力、データ持ち出し)をカバーする
ラベル付けされたテストセットです — eval をそれに対して実行するコーパスで
あって、コンプライアンスパックではありません。ポリシーを具現化するフレームワーク
パックについては、コンプライアンスを
参照してください。6. 具体例 1 つ — PII Shield プリセットを eval する
PII Shield プリセット(単一のpii ルール、mask)から始め、それをキーに
バインドする前に、モデルが出力しうる識別子の形状を捕捉することを確認したいとします。
バンドルされた pii_smoke コーパスに対して実行します。
Eval は読み取りレベルのアクション(POST /api/guardrail/:id/eval、Member)
です — 実行行を永続化しますが、ポリシーは変更しません:
expected vs got)。これにより、コーパスを grep してルールを
修正できます。Runs 一覧(GET /api/guardrail/:id/eval/runs)からいつでも
再オープンできます。
7. カスタムコーパス — 自分のトラフィックに対してテストする
バンドルされたセットは、ポリシーが既知の攻撃を処理することを証明します。それが あなたのプロンプトを処理することを証明するには、独自の JSONL をアップロード します。eval をコーパスに向ける方法は 3 つあり、それらは次の順序で解決されます:アドホックアップロード(corpus_data)
アドホックアップロード(corpus_data)
base64 エンコードされた JSONL ブロブを eval リクエストにインラインで渡します。
他のすべてに優先します — ワークスペースに保存せずにドラフトセットを反復します。
保存されたコーパス(corpus_id)
保存されたコーパス(corpus_id)
POST /api/guardrail/eval/corpora(Developer+)で一度アップロードし、
その後の実行で id で参照します。名前は ^[a-z][a-z0-9_]*$ にマッチしなければ
ならず、バンドルされた名前をシャドウできません。バンドル(corpus_name)
バンドル(corpus_name)
§6 のように、出荷されたコーパスのひとつに名前を付けます。
GET /api/guardrail/eval/corpora
(Member)で一覧と検査をします。アップロードと削除は Developer+ です。
8. スコアを読む
ランナーは、すべてのサンプルを混同行列に分類し、そこからヘッドラインメトリクスを 導出します:| 用語 | 意味 |
|---|---|
| 再現率(Recall) | ポリシーを引っかけるべきプロンプトのうち、何件が引っかけたか。低い再現率 = 見逃し。 |
| 適合率(Precision) | ポリシーが引っかけたプロンプトのうち、何件が引っかけるべきだったか。低い適合率 = 誤検知。 |
| F1 | 調和平均 — 偏ったチューニングを罰するひとつの数値。 |
9. 次に進む先
誤検知のチューニング
failures リストを、より厳格で低ノイズのポリシーに変えます。
ストリーミングカバレッジ
どのステージ / アクションの組み合わせが SSE トラフィック上で保たれるか — それに
依存する前に検証します。
Matches フィード
ライブになると、発火したすべてのルールがここに着地します — eval の本番対応物。
バージョニング
eval が最後の変更がリグレッションしたと教えた後、ポリシーを diff して revert
します。
関連するガードレールページ
関連するガードレールページ
概要 ·
最初のガードレールを作成する ·
PII Shield ·
プロンプトインジェクション ·
アクション。
関連する概念と脅威
関連する概念と脅威
完全なエンジンリファレンス
完全なエンジンリファレンス
ガードレール — eval とコーパス API を含む、すべての
ルールの種類、フィールド、ルート。
