ガードレール概要

ガードレールは OrcaRouter ゲートウェイのコンテンツポリシーレイヤーです。ワークスペースで名前付きのポリシーを 1 つ作成し、API キーにアタッチすれば、そのキーが行うすべての /v1/* 呼び出しがスクリーニングされます — モデルがプロンプトを目にする前と、モデルが応答した後に — 再デプロイなし、SDK 変更なしで。このページは Guardrails セクションのハブです：ガードレールとは何か、ルールの種類、ステージとアクション、そしてポリシーがキーにどうアタッチされるか。各スポークがさらに深く掘り下げます。完全なエンジンリファレンスについては、ガードレールを参照してください。

1. ゲートウェイ上で AI ガードレールが行うこと

ほとんどのチームはガードレールを、機密データをプロンプトから締め出すため（PII、シークレット）、安全でないコンテンツをゲートするため（jailbreak、プロンプトインジェクションの意図）、あるいはコンプライアンス制御を満たすために使います。ガードレールはゲートウェイの答えです：ワークスペーススコープの名前付きポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する、順序付けられたルールのリストです。バインディングはアプリケーションではなくゲートウェイの API キー上に存在するため、ガードレールを編集するとアタッチされたすべてのキーが次の呼び出しで反映されます。あなたのコードは以前と全く同様に /v1/chat/completions を呼び出し続けます。

ガードレールはコンテンツポリシーです（テキスト入力、テキスト出力）。対をなすエージェントファイアウォールはツール ポリシーです — エージェントがどのツール呼び出しを行えるかを統制します。両者は組み合わさります。ガードレール vs. ファイアウォールを参照。

2. ひとつの具体例

コンソール（/console/guardrails）で pii-shield という名前のガードレールを作成し、単一の PII ルール — ステージ input、アクション mask、エンティティ email、ssn — を追加し、キーにアタッチします。それ以降：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

ゲートウェイは転送前にプロンプトを Reply to [EMAIL] please に書き換えます — アップストリームモデルがアドレスを目にすることはありません。その ssn エンティティを block に切り替えると、SSN を含む次のリクエストは HTTP 400 で拒否されます。アプリケーションの変更は不要です。

作成はあなたのセッション上のコンソール / 管理 API アクションです — sk-orca-... リレーキーは /v1/* トラフィック専用であり、ポリシーの編集には決して使いません。ガードレールの作成または編集には Developer+ ロールが必要です。

3. ルール：type、stage、action

すべてのルールは 3 つの質問に答えます。エンジンは適用可能なすべてのルールを実行し、それらをひとつの判定にまとめます。

Type — 何を探すか

7 つのルールの種類。組み込みは決定的（純粋な文字列/正規表現、ネットワークなし）で、高度なものはモデルまたはベンダーを呼び出し、並行して実行されます。

keyword — リテラルの拒否リスト、大文字小文字を区別しない部分文字列マッチ。
regex — RE2 パターン（線形時間、後方参照なし）。
pii — 組み込みエンティティ検出器に加え独自のもの。§5を参照。
max_chars — あるステージで文字数を制限します。
external — 接続済みベンダー（Aporia、Averta、または独自 webhook）に委譲します。
llm_judge — ワークスペース内のモデルに対するセマンティックチェック。
grounding — リクエストで取得されたソース（RAG）に対して回答の忠実性をスコアリングします。

Stage — どこを探すか

input（リクエスト）、output（モデルのレスポンス）、または both。入力ルールはアップストリーム呼び出しの前に、出力ルールはモデルが応答した後に走ります。入力ステージと出力ステージを参照。

Action — どう対処するか

ルールビルダーには 5 つのアクションが現れます：

block — HTTP 400 で呼び出しを拒否します。
mask — マッチをリダクトし、サニタイズされたテキストを通します。
flag — トラフィックについて何も変えません。マッチを記録するだけです。
annotate — テキストはそのままに、アップストリームへセキュリティノートを注入します（例：モデルが応答する前の CVE アドバイザリ）。
spotlight — マッチした信頼されていないテキストをデリミタで囲み、それを指示ではなくデータとして扱うようモデルに伝えます。

アクションを参照。強制する前にライブトラフィックでルールを測定するには flag を使います。

4. ガードレールのアタッチと解決の仕組み

ガードレールは guardrail_id を介してキーにバインドされるか、ワークスペースがひとつのガードレールをデフォルトとしてマークできます。任意のリクエストについて、ゲートウェイは次の順序で解決します：

明示的アタッチメント — キーの guardrail_id が、存在し有効であるガードレールを指している場合、それが適用されます。明示的アタッチメントは 決してフォールバックしません：無効化することがオフスイッチです。
ワークスペースデフォルト — キーにアタッチメントがない場合、有効なデフォルトガードレールが適用されます。
どちらもなし — 強制なし。リクエストはこの機能を一度も有効化していないワークスペースとバイト単位で同一です。

これはファイアウォールと異なります。無効化されたアタッチ済みファイアウォールポリシーはワークスペースデフォルトにフォールバックしますが、無効化されたアタッチ済みガードレールは none に解決されます。ガードレールではオフスイッチが文字どおりです。

ウォークスルー：最初のガードレールを作成する、キーにアタッチする、アカウントデフォルトを設定する。

5. PII 検出器

pii ルールはクローズドな組み込み検出器セットを同梱します： email、phone、credit_card、ssn、ip、iban、mac_address、 jwt、aws_access_key、api_key_openai、bitcoin_address — に加え、地域固有の jp_mynumber、kr_rrn、cn_resident_id。 mask アクションでは各マッチが型付きタグになります — email は [EMAIL] に、 SSN は [SSN] にレンダリングされます。ルールごとに最大 25 個のカスタムエンティティ（オプションの Luhn チェックサムつき正規表現）を重ねることができ、エンティティごとのオーバーライドでひとつのルール内で異なるエンティティを異なるアクションにルーティングできます。

ターンキーの出発点は PII Shield プリセットです — 単一の pii ルール、mask、ステージ both。入力ステージのマスキングはモデルの前にリクエストを書き換えます（ストリーミングかどうかを問わず）。出力マスキングは非ストリーミング レスポンスのみで書き換えます — ストリーム内出力書き換えはロードマップ上です。 PII Shield、カスタムエンティティ、マスキングフォーマットを参照。

6. プリセットピッカー

New guardrail はテンプレートに開きます。プリセットはサーバーサイドで作成されているため、コンソール、サンドボックス、そしてこのドキュメントは同じ挙動を記述します。ピッカーはそれらをカテゴリにグループ化します：

カテゴリ	プリセット例	スポーク
pii / secrets	PII Shield、シークレットクレデンシャルブロッカー	シークレットをブロック
safety	プロンプトインジェクション、jailbreak、自傷	プロンプトインジェクション
compliance	GDPR、PCI、HIPAA、コンプライアンスロガー	コンプライアンスロガー
brand / cost	冒涜的表現、競合他社への言及、サイズ上限	ブランドセーフティ · コスト
agent	URL / シェルツール / 出力内 SQL フィルター	エージェント
code_security	シークレットファイルブロック、コピーレフトライセンスレビュー	コードセキュリティ

プリセットはシードであり、ロックではありません — 適用してから自由に編集します。さらなる出発点はテンプレートにあります。

7. ガードレールがブロックするとき

ブロックされたリクエストは、エラーコード guardrail_blocked と、発火したガードレールおよびルールを示すメッセージとともに HTTP 400 を返します。

クォータは消費されません。 入力ステージのブロックはメータリングの前に発火し、出力ステージのブロックは事前消費されたクォータを返金します。
リクエストは skip-retry とマークされます — 同じプロンプトを再実行してもまた block されるだけなので、ゲートウェイは別のチャネルでリトライを無駄にしません。

ストリーミングでは、block はベストエフォートで強制されます — スキャナが小さな先読みをバッファし、ルールが発火するとストリームを打ち切るため、すでにフラッシュされたバイトは撤回できません。出力に対する mask は非ストリーミング レスポンスのみに適用されます — ストリーミングレスポンスではゲートウェイがマスクを計算しますがリダクトされたテキストを転送しません。ストリーム内出力書き換えはロードマップ上です。（入力ステージのマスキングはストリーミングと非ストリーミングのいずれでもライブです。） guardrail_blocked エラーとストリーミングカバレッジを参照。

8. ライブになった後

マッチフィード

発火したすべてのルールは type、action、stage、detail を記録します。グループ化、フィルター、エクスポート、単一マッチへのドリルダウンができます。

ロギングとプライバシー

マッチした部分文字列は Log raw content がオンのときのみ記録されます — デフォルトはオフ、プライバシー保守的な姿勢です。

バージョニング

すべての変更は履歴行を書き込みます。任意の 2 バージョンを diff し、新しいバージョンとして revert します — 履歴は決して変更されません。

テストと eval

サンドボックス Test タブはアップストリーム呼び出しなしで現在のポリシーを評価し、eval ハーネスはバンドルまたはカスタムコーパスに対してスコアリングします。

誤検知はチューニングのシグナルであって、ルールを無効化する理由ではありません。 Matches フィードでマークし、パターンを絞り込みます — 誤検知のチューニングを参照。

9. 次にどこへ

適切なルールの種類を選ぶ

機密ワード拒否リスト · 正規表現検出器 · 入力ステージ · 出力ステージ · ストリームセーフルール。

モデルを理解する

ガードレール vs. ファイアウォール · OrcaRouter がトラフィックを検査する仕組み · 強制モード · スコープ：キー、ポリシー、ワークスペース。

脅威にマッピングする

プロンプトインジェクション · jailbreak · データ持ち出し。

完全なエンジンリファレンス

ガードレール — すべてのフィールド、すべてのルート、LLM judge とグラウンディングルール、そして外部ベンダーを詳しく。

​1. ゲートウェイ上で AI ガードレールが行うこと

​2. ひとつの具体例

​3. ルール：type、stage、action

​4. ガードレールのアタッチと解決の仕組み

​5. PII 検出器

​6. プリセットピッカー

​7. ガードレールがブロックするとき

​8. ライブになった後

マッチフィード

ロギングとプライバシー

バージョニング

テストと eval

​9. 次にどこへ

1. ゲートウェイ上で AI ガードレールが行うこと

2. ひとつの具体例

3. ルール：type、stage、action

4. ガードレールのアタッチと解決の仕組み

5. PII 検出器

6. プリセットピッカー

7. ガードレールがブロックするとき

8. ライブになった後

9. 次にどこへ