メインコンテンツへスキップ
すべてのモデル呼び出しの前にコンテンツポリシーを置く最速の方法はガードレール です — コンソールで一度作成し、API キーにアタッチする、ワークスペーススコープの 名前付きポリシーです。ゲートウェイはその後、次の呼び出しでリクエスト入力と モデル出力をスクリーニングします — 再デプロイなし、SDK 変更なしで。 このページはエンドツーエンドのループを辿ります:ガードレールを作成し、ルールを 追加し、サンドボックスでテストし、キーにアタッチし、実際のリクエストを送信します。 完全なエンジンリファレンス — すべてのルールの種類、フィールド、ルート — については、 ガードレールリファレンスを参照してください。
ここでのすべてのステップは、ホスト型ゲートウェイ(api.orcarouter.ai)上の コンソールアクションです。ガードレール設定はあなた自身のセッション下で 実行されます。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。 ガードレールの作成と編集にはワークスペースで Developer+ が必要です。

1. 5 ステップで LLM ガードレールを追加する方法

ループ全体を一目で — 各ステップは下記で展開します。
1

ガードレールを作成する

コンソールで Guardrails を開き、New guardrail をクリックします。 名前(≤ 64 文字)を付けます、例:pii-shield
2

ルールを追加する

input ステージ、mask アクションで PII detection ルールを 1 つ 追加します。
3

サンドボックスでテストする

Test タブを開き、サンプルを貼り付け、ポリシーをローカルで実行します — アップストリーム呼び出しなし、クォータなし。
4

キーにアタッチする

API キーを編集し、Guardrail ドロップダウンからガードレールを選びます。 バインディングはキー上に存在します。
5

リクエストを送信する

そのキーで /v1/chat/completions を呼び出します。ゲートウェイは転送前に ポリシーを適用します。

2. ガードレールを作成する

コンソールで Guardrails を開き、New guardrail をクリックします。 ガードレールはワークスペーススコープの名前付きコンテンツポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する、順序付けられた ルールのリストです。pii-shield という名前を付けて保存します。
New guardrail スプリットボタンはテンプレートにも直接開きます。 PII Shield プリセットは emailphonessncredit_cardip を マスクする単一の pii ルールです。プリセットの適用はシードであり、ロックでは ありません — 後で自由に編集します。さらなる出発点は プリセットテンプレートを閲覧してください。

3. ルールを追加する

各ルールは 3 つのことを決定します — 何を探すか(ルールの種類)、どこを探すか (ステージ)、どう対処するか(アクション)。ルールを 1 つ追加します:
  • Type: PII detection(pii
  • Stage: Input(リクエスト)
  • Action: Mask — マッチをリダクト
  • Entities: emailphonessn
mask アクションでは、各マッチが型付きタグで置換されます — email は [EMAIL] に、SSN は [SSN] になります。7 つのルールの種類(keywordregexpiimax_charsexternalllm_judgegrounding)と 5 つのアクション(blockmaskflagannotatespotlight)は リファレンスで扱います。この最初の ガードレールには、ひとつのマスキングルールで十分です。
マスキングは both ステージでライブです。入力ステージのルールはモデルが 目にする前にリクエストをマスクし、出力ステージのルールはモデルのレスポンスを マスクします — 非ストリーミングレスポンスでは、ストリーミングではチャンクごとに — クライアントが受け取る前に。Block も両ステージで強制されます。モデルの レスポンスをゲートしたい場合は、ルールのステージを output(または both)に 設定します。出力ステージルールを参照。

4. サンドボックスでテストする

ガードレールをいずれかのキーにアタッチする前に、期待どおりに動作することを 証明します。エディタ内の Test タブを開き、サンプルを貼り付け、input ステージを選んで実行します:
Reply to jane@acme.com please
サンドボックスは現在のポリシーをローカルで評価し、判定とレンダリングされた テキストを返します:
Reply to [EMAIL] please
アップストリームには何も送信されず、何もメータリングされません。入力コーパスに 対する A/B グリッドについては、Eval ハーネスが 隣のタブにあります。

5. キーにアタッチする

ガードレールはキーがそれを指すまで何もしません。バインドする 2 つの方法:

キーごと

API キーを編集し、Guardrail ドロップダウンからガードレールを選びます。 これはキー上に guardrail_id を設定します。 キーにアタッチするを参照。

ワークスペースデフォルト

ガードレールをワークスペースデフォルトとしてマークすると、明示的な アタッチメントのない任意のキーがそれを継承します。 アカウントデフォルトを参照。
解決は明示的で予測可能です:
順序何が適用されるか
1キーの明示的な guardrail_id(存在し有効である場合)。
2ワークスペースデフォルト(キーにアタッチメントがない場合)。
3None — リクエストはポリシーのないワークスペースとバイト単位で同一です。
明示的アタッチメントは決してサイレントにフォールバックしません。アタッチ済み ガードレールの無効化がオフスイッチです — ワークスペースデフォルトに流れ落ちる ことはありません。(ファイアウォールポリシーはここで異なります。 ガードレール vs. ファイアウォールを参照。)

6. リクエストを送信する

pii-shield にバインドされたキーを使って、以前と全く同様に OrcaRouter を 呼び出します — SDK 変更なし、新しいヘッダーなし:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'
ゲートウェイは転送前に email を [EMAIL] にマスクします — アップストリーム モデルがアドレスを目にすることはありません。ルールのアクションを block に 切り替えると、そのエンティティを含む次のリクエストは HTTP 400 guardrail_blocked で拒否されます。ブロックされたリクエストはクォータを 消費せず(入力ブロックはメータリングの前に発火し、出力ブロックは事前消費された クォータを返金します)、skip-retry とマークされます。完全なレスポンス形状は guardrail_blocked エラーを 参照してください。

7. 次にどこへ

発火したすべてのルールはマッチを記録します — type、action、stage、 detail 文字列。マッチした部分文字列は Log raw content がオンのときのみ 記録されます(デフォルトはオフ)。 マッチフィードロギングとプライバシーを参照。
PII 検出は emailphonecredit_cardssnipibanmac_addressjwtaws_access_keyapi_key_openaibitcoin_address (加えて地域エンティティ)をカバーし、独自のものも作成できます。 PII Shieldカスタム PII エンティティマスキングフォーマットを参照。
シークレットブロッカーまたは プロンプトインジェクション基礎 プリセットを追加します — 後者は一般的な jailbreak フレーズをレビュー用に フラグします。フレーズではなくセマンティックにインジェクションの意図を 捕捉するには、それと並べて llm_judge ルールを追加します。
すべての編集はバージョン履歴行を書き込みます。History を開いて diff し、 revert します。バージョニングを参照。
ガードレールはコンテンツをスクリーニングします。エージェントのツール呼び出しを 統制するには — 破壊的アクションを deny し、コストを上限し、承認を要求する — ファイアウォールを使います。 AI エージェントのセキュリティ危険なツール呼び出しの脅威から 始めてください。
完全なエンジン — ルールフィールド、外部ベンダー、eval ハーネス、フル API — についてはガードレールリファレンスを、エージェント ベースラインのためにガードレールとファイアウォールを結線するには セキュリティクイックスタートを読んでください。