強制パスのレイテンシ

セキュリティチェックは実際に実行されてこそ意味があります — しかし、安全性のためにスループットを犠牲にすべきではありません。このページは開発者が最もよく尋ねる質問に答えます：強制はエージェントを遅くするか、どのくらい？ 短い答え：組み込みルールのコストは測定不可能です。高度なルールのコストは高々ひとつの有界で並行したフェイルオープンなモデル呼び出しです。その理由と制御方法を説明します。

1. 2 つのクラスのチェック

すべてのガードレールルールとすべてのファイアウォール評価は 2 つのクラスのうちのひとつに分類されます。

組み込み / 決定的チェック

キーワード拒否リスト（keyword）、正規表現（regex）、PII 検出（pii）、最大長（max_chars）のガードレールルールは純粋なローカルの文字列と正規表現操作です — モデル呼び出しなし、ネットワークホップなし、タイムアウトする可能性のあるものは何もありません。ファイアウォールルール評価（ツール名グロブマッチング、引数述語、egress スコープ）も同様です：決定的でローカルです。実際的な目的では、これらのチェックはリクエストに無視できるレイテンシを追加します。ホットパスで実行しても安全であり、組み込みのガードレールテンプレートが作られているものです。

高度 / セマンティックチェック

llm_judge、grounding、external ベンダールールはチェックをモデルまたはベンダーに委譲します。それらはラウンドトリップのコストがかかります。3 つの特性がそのコストを有界にします：

並行ディスパッチ。 ポリシーに複数の高度なルールがある場合、それらは並行してディスパッチされます — ひとつの遅いチェックが別のチェックの背後で直列化することはありません。
ルールごとのタイムアウト。 各高度なルールにはタイムアウト（judge_timeout_ms / grounding_timeout_ms / timeout_ms）があります。 grounding チェックはデフォルトで約 3,000 ms；judge は設定可能な値（0 → エンジンデフォルト）を使用します。ルールは有界です — 無期限にハングすることはできません。
デフォルトでフェイルオープン。 ルールがタイムアウトするかベンダーがエラーを返す場合、イベントが記録されますがリクエストは継続します。見逃されたチェックがポリシーにとって許容できない場合、judge_fail_open: false（judge）または fail_open: false（external）を設定してフェイルクローズに切り替えます。

したがって、任意の数の高度なルールの最悪ケースはすべてのタイムアウトの合計ではなく、最長単一タイムアウトです。

2. 一目でわかる概要

チェックタイプ	レイテンシを追加するか？	有界にする方法
`keyword` 拒否リスト	無視できる — ローカル文字列スキャン	ネットワークなし；タイムアウト不要
`regex`	無視できる — RE2 ローカルマッチ	ネットワークなし；タイムアウト不要
`pii` 検出	無視できる — ローカル正規表現/エンティティスキャン	ネットワークなし；タイムアウト不要
`max_chars`	無視できる — 文字数カウント	ネットワークなし；タイムアウト不要
ファイアウォールルール評価	無視できる — グロブ + 述語マッチング	ネットワークなし；タイムアウト不要
`llm_judge`	ひとつの有界なモデル呼び出し	`judge_timeout_ms`；デフォルトでフェイルオープン
`grounding`	ひとつの有界なモデル呼び出し	`grounding_timeout_ms`（デフォルト約 3,000 ms）；デフォルトでフェイルオープン
`external` ベンダー	ひとつの有界なベンダー呼び出し	`timeout_ms`；デフォルトで `fail_open`
複数の高度なルール	ひとつの有界なラウンドトリップ（並行ディスパッチ）	最悪ケース = 最大単一タイムアウト、合計ではない

3. リクエストライフサイクルでチェックが実行される場所

強制はすべて同じポイントで発生するわけではありません。入力と出力のスクリーニングは 異なる場所で時間を追加します：

クライアント
  │
  ▼
[入力ガードレールスクリーニング]     ← ここで時間を追加、アップストリームの前
  │
  ▼
アップストリームモデル呼び出し
  │
  ▼
[出力ガードレールスクリーニング]    ← ここで時間を追加、モデル応答後
  │
  ▼
クライアント

入力ガードレールはアップストリームモデル呼び出しの前に実行されます。組み込みの入力ルールは前段にわずかなオーバーヘッドを追加します。高度な入力ルール（例：プロンプトインジェクションをチェックする llm_judge）はメインモデル呼び出しが開始される前に有界なモデル呼び出しを追加します。 出力ガードレールはモデルが応答した後に実行されます。組み込みの出力ルールは末尾にわずかなオーバーヘッドを追加します。高度な出力ルール（例：RAG の忠実性をチェックする grounding）はすでにモデルの回答を持った後に有界な呼び出しを追加します。 ファイアウォールルール評価は決定的で、ツール呼び出しルーティングでインラインに発生します — 上記のように無視できます。

ブロックされたリクエストは入力ステージのブロックに対してモデルトークンを消費せず、アップストリームのレイテンシを追加しません。入力ブロックはメータリングとアップストリーム呼び出しの前に発火するため、クォータもアップストリームのラウンドトリップ時間も支払いません。出力ステージのブロックはレスポンスが拒否された後に事前消費されたクォータを返金します。

4. タイムアウトとフェイルオープンが最悪ケースを有界にする方法

高度なルールには 2 つのダイヤルがあります： タイムアウト — チェックが許可される最大ウォール時間。リクエストはそのルールに対してせいぜいこの長さだけ待ちます。並行ディスパッチはこの上限がポリシーごとではなくルールごとに適用されることを意味します。それぞれ 2,000 ms タイムアウトの 3 つの llm_judge ルールがある場合、3 つすべてが同時に実行され、合計待機時間は約 2,000 ms であり、約 6,000 ms ではありません。 フェイルオープン vs フェイルクローズ — ルールが時間内に完了しない（またはベンダーがエラーを返す）場合の対処方法：

設定	タイムアウト / エラー時の動作
`fail_open: true`（デフォルト）	イベントを記録；チェックが通過したかのようにリクエストを継続する
`fail_open: false`	タイムアウト / エラーをブロックとして扱う；HTTP 400 `guardrail_blocked` を返す

フェイルオープンは見逃されたチェックのコストで可用性を維持します。フェイルクローズは judge が遅いか到達不能な場合の可用性のコストでポリシーの保証を維持します。ユースケースにとって何がより重要かに基づいて選択してください。

5. 実践的なガイダンス

ホットパスのルールは組み込みのままにしてください。 PII、クレデンシャル漏洩、プロンプト長、またはキーワード拒否リストが主な懸念事項の場合 — これらはすべて組み込みルールです。測定可能なレイテンシを追加せず、テキストマッチングが処理できるすべてのチェックのデフォルト選択肢であるべきです。 セマンティクスが必要な場合に llm_judge と grounding を使用してください。 有害性、ハラスメント、トピック外検出、プロンプトインジェクションの意図、RAG の忠実性は本当に曖昧です — 正規表現では確実に捉えられません。これらが高度なルールの適切なケースです。それぞれが有界な追加モデル呼び出しを追加することを受け入れてください。 レイテンシバジェットにタイムアウトをチューニングしてください。 エンドツーエンドのターゲットが 1,000 ms の場合、judge_timeout_ms: 800（またはそれ以下）を設定して、 judge があなたの予算全体を消費できないようにします。エンジンのデフォルトタイムアウトは安全な出発点です；厳しい要件がある場合は下げてください。 出力 grounding では、モデル呼び出しはすでに完了しています。 grounding チェックはアップストリームモデルが応答した後に実行されます — 追加レイテンシは末尾のみにあり、最初のトークンまでの時間のクリティカルパスにはありません。これにより、セマンティック強制を追加するリスクの低い場所になります。 複数の高度なルール？作業を分散させてください。 高度なルールは並行して実行されるため、3 つの llm_judge ルールをスタックしても 1 つとほぼ同じコストがかかります — 最も長い個別のタイムアウトがウォール時間を決定し、数ではありません。追加コストなしにセマンティックチェックを重ねるためにこれを使用してください。

強制モード

フェイルオープン vs フェイルクローズ — タイムアウトとエラー条件下でポリシーの動作をチューニングするための完全なリファレンス。

ガードレール

ルールタイプ、judge フィールド、grounding しきい値、完全なガードレール設定リファレンス。

組み込みルールはすべてのパスで無視できます；高度なルールはひとつの有界で並行したフェイルオープンな呼び出しのコストがかかります — タイムアウトとフェイルモードをチューニングすれば、強制はエージェントに制御されないレイテンシを追加しません。

​1. 2 つのクラスのチェック

​組み込み / 決定的チェック

​高度 / セマンティックチェック

​2. 一目でわかる概要

​3. リクエストライフサイクルでチェックが実行される場所

​4. タイムアウトとフェイルオープンが最悪ケースを有界にする方法

​5. 実践的なガイダンス