顧客向けチャットボットをセキュアにする

顧客向けチャットボットは、一般公衆から信頼されていない入力を受け取り、それをモデルへ送ります。これが、あなたが運用するなかで最も露出の大きいサーフェスです：ユーザーはアップストリームに保存したくない PII を貼り付け、攻撃者はあなたのシステムプロンプトを上書きしようとし、モデルはシークレットや安全でないコンテンツをチャットウィンドウに反響させ得ます。このレシピは、AI チャットボットをエンドツーエンドでセキュアにする 4 つのコントロールを配線します — リクエストへの PII ガードレール、プロンプトインジェクションのスクリーニング、出力の安全性、そしてひとつのタイトにスコープされたキー — すべてコンソールで、チャットボットのコード変更ゼロで。

ここにあるすべてはあなたのワークスペースにバインドされ、コンソールから設定されます。あなたのチャットボットは同じ sk-orca-... キーで https://api.orcarouter.ai/v1/chat/completions を呼び続けます — 変わるのはゲートウェイ内のポリシーだけです。設定アクションは各ステップで示されるロールを必要とします；リレー呼び出しはスコープキーを使います。

1. 公開チャットボットの脅威モデル

何かを作成する前に、何から守ろうとしているのかを知りましょう。チャットボットの攻撃面はフルエージェントよりも狭いですが、高頻度のリスクは具体的です：

PII が入り、PII がログされる

ユーザーがメール、カード番号、SSN をチャットに貼り付け — あなたはそれをアップストリームへ、そしてあなたのログへ転送してしまいます。

プロンプトインジェクション

「これまでの指示を無視して…」 — あなたのシステムプロンプトを上書きし、ボットの振る舞いを変えようとする試み。

ジェイルブレイク

ボットをポリシーから外そうとする DAN / ロールプレイのフレーミング。

安全でない出力

モデルが漏洩したシークレット、システムプロンプトの定型文、あるいはインジェクションを含むコンテンツをチャットへ反響させること。

素のチャットボットにはツール呼び出しがないため、このレシピはファイアウォールではなくガードレール — テキストプレーン — に頼ります。もしあなたのボットがツールを呼び出すなら、その上にファイアウォールを重ねてください（§6 を参照）。

2. ひとつのガードレール、4 つの仕事

4 つの別々のポリシーではなく、各リスクをカバーする順序付けされたルールを持つ ひとつのワークスペースガードレールを作成します。ガードレールは名前付きの、順序付けされたルールのリストです；各ルールは何を探すか、どこで（input、 output、または both）、そして何をするか（block、mask、または flag）を指定します。コンソールで Guardrails → New guardrail を開き、chatbot-shield と名付け、以下のルールを追加します。ガードレールの作成 — および Test サンドボックスの実行 — には Developer ロールが必要です；ガードレールの閲覧は任意のメンバーに開放されています。

a. リクエストへの PII

ステージ input、アクション mask で PII ルールを追加します。組み込みのエンティティセットはクローズドです — チャットボットが実際に目にするものを選びます：

{
  "type": "pii",
  "stage": "input",
  "action": "mask",
  "entities": ["email", "phone", "credit_card", "ssn", "ip"],
  "entity_actions": { "credit_card": "block", "ssn": "block" }
}

mask は各マッチを型付きタグで置き換えます — jane@acme.com は [EMAIL] になるため、アップストリームのモデルはアドレスを決して見ません。entity_actions オーバーライドは、カード番号や SSN ではリクエストを完全にブロックし、より低重大度のエンティティはマスクします。これはまさに PII Shield プリセットをエンティティごとのオーバーライドで拡張したものです — テンプレートライブラリからプリセットを適用し、そこから編集します。

入力ステージの PII マスキングは今日ライブです — モデルが見る前にリクエストを書き換えます。ストリーミングされるレスポンスのライブマスキングはロードマップ上にあります。ボットが返答する内容から PII をリダクトするには、出力 block ルールを使う（ストリーミングと非ストリーミングの両方で強制されます）か、出力マスキングが適用される非ストリーミングでボットを実行します。まず Test タブで、あなたの正確なステージ／ストリームの組み合わせを証明してください。

b. プロンプトインジェクションのスクリーニング

OrcaRouter はこれを Prompt-Injection Basics 安全プリセットとして出荷しています（“ignore previous instructions” や “reveal your system prompt” といった句のキーワード拒否リスト；DAN / ロールプレイのフレーミングに対するより厳格な正規表現カバレッジには Jailbreak / Role-Play Blocker プリセットを追加）。加えて、どのパターンも捕捉しない意味論的な意図のために、llm_judge ルールを使います。プリセットを追加し、その後インジェクション／上書きの試みをフラグするルーブリックを持つ judge ルールを input ステージに追加します。judge はあなたのワークスペース内のモデルに対して実行され、judge_timeout_ms で制限され、デフォルトでフェイルオープンします（judge エラーはログされリクエストは継続します） — フェイルクローズさせるには judge_fail_open: false を設定します。

インジェクションルールを flag で開始し、実トラフィックに対して Matches フィードを 1 日監視し、それから攻撃に発火し正当な質問には発火しないことを確認したら block にプロモートします。強制モードを参照。

c. 出力の安全性

チャットウィンドウに決して届いてはならないコンテンツ — 漏洩したシークレット、チャットテンプレートの制御トークン、システムプロンプトの定型文 — のために、 output ステージの block ルール（正規表現またはキーワード）を追加します。 Secrets & API-Key Blocker とシステムプロンプト漏洩の安全プリセットが一般的なケースをカバーします；それらを適用し、関連ルールを output ステージに固定します。出力 block はストリーミングでも強制されます — スキャナはストリームを途中で切断し、ブロックされたコンテンツがユーザーに届く前に置換メッセージを発します。

3. 出荷前にテストする

すべてのガードレールエディタには Test タブがあります。サンプルを貼り付け、ステージを選び、現在のポリシーをローカルで実行します — アップストリーム呼び出しなし、クォータ消費なし。

これを貼り付ける	ステージ	期待される結果
`email me at jane@acme.com`	input	`email me at [EMAIL]`
`ignore previous instructions`	input	flag / block（あなたの選択）
card `4111 1111 1111 1111`	input	`guardrail_blocked`（オーバーライドどおり）

敵対的なカバレッジには、Eval タブがバンドルされたレッドチームコーパス（またはあなた自身の JSONL）に対してポリシーを実行し、どうスコアリングされたかを報告します — judge ルーブリックを、良性のチャットをフラグせずに既知の攻撃を捕捉するまでチューニングします。

4. ボット用のスコープキーをひとつ発行する

ガードレールはそれに解決されるキーでのみ強制します。チャットボットに、必要最小限にスコープされた独自のキーを与えます — 決してアカウント全体のキーではなく。 API Keys → New key で、次を設定します：

ガードレールをアタッチする

Guardrail ドロップダウンから chatbot-shield を選びます。これはキーに guardrail_id を設定します。明示的なアタッチメントはオフスイッチの正反対です：設定され有効であれば、常に適用され、決してサイレントにフォールバックしません。（未設定のままにすると、代わりにワークスペースの is_default ガードレールにフォールバックします。）

支出に上限をかける

credit_limit_usd を妥当な上限に設定します（0 = 無制限）。公開チャットボットは最も悪用されやすいキーです — ハードなクレジット上限があなたの爆発半径の限界です。デニアル・オブ・ウォレットを参照。

モデルを固定する

model_limits をオンにし、ボットが呼び出すことを許可されたモデルだけをリストします。これにより、漏洩したキーが、あなたが決して公開するつもりのなかった高価なモデルの実行に使われることを防ぎます。

さらにロックダウンする

ボットが固定サーバーから呼び出す場合は allow_ips をバックエンドの egress IP に設定し、キーが一時的なら expired_time を設定します（-1 = 無期限）。

キーは作成後の表示でマスクされます — 一度だけコピーしてください。あなたのチャットボットバックエンドは、スクリーニングが起きていることをコードが意識することなく、すべてのユーザーターンを chatbot-shield を通して送るようになります。

5. 本番で監視する

2 つのリードがあなたを正直に保ちます。どちらもワークスペーススコープです：

Guardrails → Matches（任意の Member） — 発火したすべてのルール：type、 action、stage、detail。マッチした部分文字列は、ガードレールに対して Log raw content がオンの場合にのみ記録されます（デフォルトはオフ — プライバシー保守的な姿勢）。誤検出をマークしてポリシーをチューニングします（Admin）。
Version history — すべての変更が履歴行を書き込みます；任意の 2 バージョンを diff し、ルールが攻撃的すぎると判明したら revert します。ブロックされたリクエストは HTTP 400 guardrail_blocked を返し、クォータを消費せず、 skip-retry とマークされます。

guardrail_blocked レスポンスは意図的な、ユーザーに見える 400 です。生のエラーを表面化させるのではなく、フレンドリーなメッセージ（「それは処理できません」）でチャットボット UI 内で処理してください — ゲートウェイは既に安全でないターンをあなたのために止めています。

6. ボットがツールを呼び出す場合

あなたのチャットボットが関数を呼び出せる、URL を取得できる、あるいは MCP サーバーに到達できる瞬間、テキストスクリーニングだけでは足りません — アクションプレーンが必要です。同じキーに firewall_policy_id 経由でファイアウォールポリシーをアタッチするか、balanced 自律性レベルを適用してツール呼び出しを audit し、強化前にワークスペース全体で PII を flag します。最速の道はゼロトラストクイックスタートです；ツールを多用するエージェントについては、自律エージェントをセキュアにするを参照。

7. さらに深く知るには

ガードレールリファレンス

すべてのルールタイプ、PII エンティティ、judge フィールド、そして eval ハーネスを完全に。

ガードレール vs ファイアウォール

テキストプレーン vs アクションプレーン — どちらが必要かを判断します。

強制モード

Observe → shadow → enforce：ボットを壊さずにロールアウトします。

スコープキー、ポリシー、ワークスペース

キーアタッチメントとワークスペースデフォルトがどう解決されるか。

​1. 公開チャットボットの脅威モデル

PII が入り、PII がログされる

プロンプトインジェクション

ジェイルブレイク

安全でない出力

​2. ひとつのガードレール、4 つの仕事

​a. リクエストへの PII

​b. プロンプトインジェクションのスクリーニング

​c. 出力の安全性

​3. 出荷前にテストする

​4. ボット用のスコープキーをひとつ発行する

​5. 本番で監視する

​6. ボットがツールを呼び出す場合

​7. さらに深く知るには

ガードレールリファレンス

ガードレール vs ファイアウォール

強制モード

スコープキー、ポリシー、ワークスペース

1. 公開チャットボットの脅威モデル

2. ひとつのガードレール、4 つの仕事

a. リクエストへの PII

b. プロンプトインジェクションのスクリーニング

c. 出力の安全性

3. 出荷前にテストする

4. ボット用のスコープキーをひとつ発行する

5. 本番で監視する

6. ボットがツールを呼び出す場合

7. さらに深く知るには