ここでのすべてのステップは、ホスト型ゲートウェイ(
api.orcarouter.ai)上の
コンソールアクションです。ガードレール設定はあなた自身のセッション下で
実行されます。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。
ガードレールの作成と編集にはワークスペースで Developer+ が必要です。1. 5 ステップで LLM ガードレールを追加する方法
ループ全体を一目で — 各ステップは下記で展開します。2. ガードレールを作成する
コンソールで Guardrails を開き、New guardrail をクリックします。 ガードレールはワークスペーススコープの名前付きコンテンツポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する、順序付けられた ルールのリストです。pii-shield という名前を付けて保存します。
3. ルールを追加する
各ルールは 3 つのことを決定します — 何を探すか(ルールの種類)、どこを探すか (ステージ)、どう対処するか(アクション)。ルールを 1 つ追加します:- Type: PII detection(
pii) - Stage: Input(リクエスト)
- Action: Mask — マッチをリダクト
- Entities:
email、phone、ssn
[EMAIL]
に、SSN は [SSN] になります。7 つのルールの種類(keyword、regex、pii、
max_chars、external、llm_judge、grounding)と 5 つのアクション(block、
mask、flag、annotate、spotlight)は
リファレンスで扱います。この最初の
ガードレールには、ひとつのマスキングルールで十分です。
マスキングは both ステージでライブです。入力ステージのルールはモデルが
目にする前にリクエストをマスクし、出力ステージのルールはモデルのレスポンスを
マスクします — 非ストリーミングレスポンスでは、ストリーミングではチャンクごとに
— クライアントが受け取る前に。Block も両ステージで強制されます。モデルの
レスポンスをゲートしたい場合は、ルールのステージを
output(または both)に
設定します。出力ステージルールを参照。4. サンドボックスでテストする
ガードレールをいずれかのキーにアタッチする前に、期待どおりに動作することを 証明します。エディタ内の Test タブを開き、サンプルを貼り付け、input
ステージを選んで実行します:
5. キーにアタッチする
ガードレールはキーがそれを指すまで何もしません。バインドする 2 つの方法:キーごと
API キーを編集し、Guardrail ドロップダウンからガードレールを選びます。
これはキー上に
guardrail_id を設定します。
キーにアタッチするを参照。ワークスペースデフォルト
ガードレールをワークスペースデフォルトとしてマークすると、明示的な
アタッチメントのない任意のキーがそれを継承します。
アカウントデフォルトを参照。
| 順序 | 何が適用されるか |
|---|---|
| 1 | キーの明示的な guardrail_id(存在し有効である場合)。 |
| 2 | ワークスペースデフォルト(キーにアタッチメントがない場合)。 |
| 3 | None — リクエストはポリシーのないワークスペースとバイト単位で同一です。 |
6. リクエストを送信する
pii-shield にバインドされたキーを使って、以前と全く同様に OrcaRouter を
呼び出します — SDK 変更なし、新しいヘッダーなし:
[EMAIL] にマスクします — アップストリーム
モデルがアドレスを目にすることはありません。ルールのアクションを block に
切り替えると、そのエンティティを含む次のリクエストは HTTP 400
guardrail_blocked で拒否されます。ブロックされたリクエストはクォータを
消費せず(入力ブロックはメータリングの前に発火し、出力ブロックは事前消費された
クォータを返金します)、skip-retry とマークされます。完全なレスポンス形状は
guardrail_blocked エラーを
参照してください。
7. 次にどこへ
何が発火したかを確認する
何が発火したかを確認する
発火したすべてのルールはマッチを記録します — type、action、stage、
detail 文字列。マッチした部分文字列は Log raw content がオンのときのみ
記録されます(デフォルトはオフ)。
マッチフィードと
ロギングとプライバシーを参照。
基本以上をマスクする
基本以上をマスクする
PII 検出は
email、phone、credit_card、ssn、ip、iban、
mac_address、jwt、aws_access_key、api_key_openai、bitcoin_address
(加えて地域エンティティ)をカバーし、独自のものも作成できます。
PII Shield、
カスタム PII エンティティ、
マスキングフォーマットを参照。シークレットとインジェクションを捕捉する
シークレットとインジェクションを捕捉する
シークレットブロッカーまたは
プロンプトインジェクション基礎
プリセットを追加します — 後者は一般的な jailbreak フレーズをレビュー用に
フラグします。フレーズではなくセマンティックにインジェクションの意図を
捕捉するには、それと並べて
llm_judge
ルールを追加します。変更をロールバックする
変更をロールバックする
すべての編集はバージョン履歴行を書き込みます。History を開いて diff し、
revert します。バージョニングを参照。
テキストだけでなくツール呼び出しをゲートする
テキストだけでなくツール呼び出しをゲートする
ガードレールはコンテンツをスクリーニングします。エージェントのツール呼び出しを
統制するには — 破壊的アクションを deny し、コストを上限し、承認を要求する —
ファイアウォールを使います。
AI エージェントのセキュリティと
危険なツール呼び出しの脅威から
始めてください。
