最初のガードレールを作成する

すべてのモデル呼び出しの前にコンテンツポリシーを置く最速の方法はガードレール です — コンソールで一度作成し、API キーにアタッチする、ワークスペーススコープの名前付きポリシーです。ゲートウェイはその後、次の呼び出しでリクエスト入力とモデル出力をスクリーニングします — 再デプロイなし、SDK 変更なしで。このページはエンドツーエンドのループを辿ります：ガードレールを作成し、ルールを追加し、サンドボックスでテストし、キーにアタッチし、実際のリクエストを送信します。完全なエンジンリファレンス — すべてのルールの種類、フィールド、ルート — については、ガードレールリファレンスを参照してください。

ここでのすべてのステップは、ホスト型ゲートウェイ（api.orcarouter.ai）上の コンソールアクションです。ガードレール設定はあなた自身のセッション下で実行されます。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。ガードレールの作成と編集にはワークスペースで Developer+ が必要です。

1. 5 ステップで LLM ガードレールを追加する方法

ループ全体を一目で — 各ステップは下記で展開します。

ガードレールを作成する

コンソールで Guardrails を開き、New guardrail をクリックします。名前（≤ 64 文字）を付けます、例：pii-shield。

ルールを追加する

input ステージ、mask アクションで PII detection ルールを 1 つ追加します。

サンドボックスでテストする

Test タブを開き、サンプルを貼り付け、ポリシーをローカルで実行します — アップストリーム呼び出しなし、クォータなし。

キーにアタッチする

API キーを編集し、Guardrail ドロップダウンからガードレールを選びます。バインディングはキー上に存在します。

リクエストを送信する

そのキーで /v1/chat/completions を呼び出します。ゲートウェイは転送前にポリシーを適用します。

2. ガードレールを作成する

コンソールで Guardrails を開き、New guardrail をクリックします。ガードレールはワークスペーススコープの名前付きコンテンツポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する、順序付けられたルールのリストです。pii-shield という名前を付けて保存します。

New guardrail スプリットボタンはテンプレートにも直接開きます。 PII Shield プリセットは email、phone、ssn、credit_card、ip をマスクする単一の pii ルールです。プリセットの適用はシードであり、ロックではありません — 後で自由に編集します。さらなる出発点はプリセットテンプレートを閲覧してください。

3. ルールを追加する

各ルールは 3 つのことを決定します — 何を探すか（ルールの種類）、どこを探すか （ステージ）、どう対処するか（アクション）。ルールを 1 つ追加します：

Type: PII detection（pii）
Stage: Input（リクエスト）
Action: Mask — マッチをリダクト
Entities: email、phone、ssn

mask アクションでは、各マッチが型付きタグで置換されます — email は [EMAIL] に、SSN は [SSN] になります。7 つのルールの種類（keyword、regex、pii、 max_chars、external、llm_judge、grounding）と 5 つのアクション（block、 mask、flag、annotate、spotlight）はリファレンスで扱います。この最初のガードレールには、ひとつのマスキングルールで十分です。

マスキングは both ステージでライブです。入力ステージのルールはモデルが目にする前にリクエストをマスクし、出力ステージのルールはモデルのレスポンスをマスクします — 非ストリーミングレスポンスでは、ストリーミングではチャンクごとに — クライアントが受け取る前に。Block も両ステージで強制されます。モデルの レスポンスをゲートしたい場合は、ルールのステージを output（または both）に設定します。出力ステージルールを参照。

4. サンドボックスでテストする

ガードレールをいずれかのキーにアタッチする前に、期待どおりに動作することを証明します。エディタ内の Test タブを開き、サンプルを貼り付け、input ステージを選んで実行します：

Reply to jane@acme.com please

サンドボックスは現在のポリシーをローカルで評価し、判定とレンダリングされたテキストを返します：

Reply to [EMAIL] please

アップストリームには何も送信されず、何もメータリングされません。入力コーパスに対する A/B グリッドについては、Eval ハーネスが隣のタブにあります。

5. キーにアタッチする

ガードレールはキーがそれを指すまで何もしません。バインドする 2 つの方法：

キーごと

API キーを編集し、Guardrail ドロップダウンからガードレールを選びます。これはキー上に guardrail_id を設定します。キーにアタッチするを参照。

ワークスペースデフォルト

ガードレールをワークスペースデフォルトとしてマークすると、明示的なアタッチメントのない任意のキーがそれを継承します。アカウントデフォルトを参照。

解決は明示的で予測可能です：

順序	何が適用されるか
1	キーの明示的な `guardrail_id`（存在し有効である場合）。
2	ワークスペースデフォルト（キーにアタッチメントがない場合）。
3	None — リクエストはポリシーのないワークスペースとバイト単位で同一です。

明示的アタッチメントは決してサイレントにフォールバックしません。アタッチ済みガードレールの無効化がオフスイッチです — ワークスペースデフォルトに流れ落ちることはありません。（ファイアウォールポリシーはここで異なります。ガードレール vs. ファイアウォールを参照。）

6. リクエストを送信する

pii-shield にバインドされたキーを使って、以前と全く同様に OrcaRouter を呼び出します — SDK 変更なし、新しいヘッダーなし：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

ゲートウェイは転送前に email を [EMAIL] にマスクします — アップストリームモデルがアドレスを目にすることはありません。ルールのアクションを block に切り替えると、そのエンティティを含む次のリクエストは HTTP 400 guardrail_blocked で拒否されます。ブロックされたリクエストはクォータを消費せず（入力ブロックはメータリングの前に発火し、出力ブロックは事前消費されたクォータを返金します）、skip-retry とマークされます。完全なレスポンス形状は guardrail_blocked エラーを参照してください。

7. 次にどこへ

何が発火したかを確認する

発火したすべてのルールはマッチを記録します — type、action、stage、 detail 文字列。マッチした部分文字列は Log raw content がオンのときのみ記録されます（デフォルトはオフ）。マッチフィードとロギングとプライバシーを参照。

基本以上をマスクする

PII 検出は email、phone、credit_card、ssn、ip、iban、 mac_address、jwt、aws_access_key、api_key_openai、bitcoin_address （加えて地域エンティティ）をカバーし、独自のものも作成できます。 PII Shield、カスタム PII エンティティ、マスキングフォーマットを参照。

シークレットとインジェクションを捕捉する

シークレットブロッカーまたはプロンプトインジェクション基礎プリセットを追加します — 後者は一般的な jailbreak フレーズをレビュー用にフラグします。フレーズではなくセマンティックにインジェクションの意図を捕捉するには、それと並べて llm_judge ルールを追加します。

変更をロールバックする

すべての編集はバージョン履歴行を書き込みます。History を開いて diff し、 revert します。バージョニングを参照。

テキストだけでなくツール呼び出しをゲートする

ガードレールはコンテンツをスクリーニングします。エージェントのツール呼び出しを統制するには — 破壊的アクションを deny し、コストを上限し、承認を要求する — ファイアウォールを使います。 AI エージェントのセキュリティと危険なツール呼び出しの脅威から始めてください。

完全なエンジン — ルールフィールド、外部ベンダー、eval ハーネス、フル API — についてはガードレールリファレンスを、エージェントベースラインのためにガードレールとファイアウォールを結線するにはセキュリティクイックスタートを読んでください。

​1. 5 ステップで LLM ガードレールを追加する方法

​2. ガードレールを作成する

​3. ルールを追加する

​4. サンドボックスでテストする

​5. キーにアタッチする

キーごと

ワークスペースデフォルト

​6. リクエストを送信する

​7. 次にどこへ

1. 5 ステップで LLM ガードレールを追加する方法

2. ガードレールを作成する

3. ルールを追加する

4. サンドボックスでテストする

5. キーにアタッチする

6. リクエストを送信する

7. 次にどこへ