機微データと PII の漏洩

アプリがモデルに送るどのプロンプトも、含めるべきでない個人データを運ぶ可能性があります — サポートチケットに貼り付けられたメールアドレス、CRM メモ内の SSN、ユーザーがチャットボックスに入力したカード番号。そのテキストが一度アップストリームプロバイダに到達すると、もはやあなたの制御下にはありません：ログに残り、キャッシュされ、もしかすると学習に使われます。モデルのレスポンスも PII を漏らし返すことがあり、詳細をエコーまたは推論して、それがあなたのアプリケーションログに残ってしまいます。このページは、PII ガードレール — モデルが見る前にリクエスト上の機微エンティティをマスクまたはブロックするワークスペーススコープのルール — を使って、ゲートウェイで LLM PII 漏洩を止める方法を示します。これはエージェントファイアウォールのコンテンツ層のカウンターパートであり、アプリケーションコードの変更を一切必要としません。

PII ガードレールはプロンプトとレスポンスのテキストをスクリーニングします。エージェントがデータに対して取るアクション — fetch ツール、egress ホスト — を統制するには、データ持ち出しを参照してください。2 つのプレーンは組み合わせ可能です。ほとんどのチームは両方を運用します。

1. 漏洩はどのように起きるか

PII は、ごく普通の善意のトラフィックを通じてアップストリームプロバイダに到達します：

ユーザーが自分の連絡先詳細をチャットに貼り付け、アプリがメッセージ全体をそのまま転送します。
RAG パイプラインが顧客レコードを含むドキュメントを取得し、それをコンテキストとしてプロンプトに詰め込みます。
エージェントがデータベース行を読み取り、生のフィールドをツール引数やフォローアッププロンプトに含めます。
モデルのレスポンスが PII を言い直したり推論したりし、それをアプリが自身のログに書き込みます。

これらのいずれも攻撃ではありません — LLM アプリの通常の姿です。修正は、コード内のすべての呼び出し箇所を監査する代わりに、ひとつのチョークポイントですべてのリクエストとレスポンスをスクリーニングするポリシーです。

2. PII ガードレールで LLM PII 漏洩を防ぐ

ガードレールはワークスペーススコープの名前付きコンテンツポリシーです。その中の pii ルールは機微エンティティを検出し、各マッチにひとつのアクションを適用します：

アクション	効果
`mask`	各マッチを型付きタグに置き換え — `jane@acme.com` → `[EMAIL]` — クリーニングされたテキストを転送します。モデルは元の値を決して見ません。
`block`	リクエスト全体を HTTP 400 `guardrail_blocked` で拒否します。PII が一切プロバイダに到達してはならない場合に使用します。
`flag`	トラフィックは何も変えず、マッチを記録します。強制する前に露出を測定します。

検出器セットは組み込みで決定的です — 純粋なパターンマッチングで、ネットワーク呼び出しはなく、ホットパス上で安全です。組み込みエンティティ： email、phone、credit_card、ssn、ip、iban、mac_address、jwt、 aws_access_key、api_key_openai、bitcoin_address、加えてチェックサムでゲートされた地域識別子 jp_mynumber、kr_rrn、cn_resident_id。 mask アクションでは各マッチがその型付きタグ — [EMAIL]、[SSN]、 [CREDIT_CARD] など — としてレンダリングされるため、値は消えてもプロンプトの構造は維持されます。

組み込みでない検出器（社内の従業員 ID、口座番号）が必要ですか？ カスタムエンティティ — オプションの Luhn チェックサム付きの正規表現、ルールごとに最大 25 個 — を組み込みのすぐ横に追加します。ガードレールリファレンスを参照してください。

3. 具体例 — リクエスト上で PII をマスクする

最速の出発点は PII Shield プリセットです：email、phone、ssn、 credit_card、ip をマスクする単一の pii ルール。コンソールで設定します — このステップではコード変更もキーも不要です。

ガードレールを作成

コンソールで Guardrails を開き、New guardrail をクリックします。 pii カテゴリから PII Shield プリセットを選ぶか、上記のエンティティに対してアクション mask の pii ルールを 1 つ手で記述します。保存します。（書き込みには Developer ロール以上が必要です。）

サンドボックスで証明

Test タブを開き、“reply to jane@acme.com” を貼り付け、input ステージを選んで実行します。サンドボックスは reply to [EMAIL] を返します — ローカルで、アップストリーム呼び出しなし、クォータ消費なし。

キーにアタッチ

API Keys でキーを編集し、Guardrail ドロップダウンからガードレールを選択するか、ガードレールをワークスペースデフォルトに設定して、すべての未アタッチキーがそれを継承するようにします。バインディングはゲートウェイのキー上にあります。

いつも通りゲートウェイを呼び出す

そのキーを使えば、リレー呼び出しは変わりません：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Draft a reply to jane@acme.com"}
    ]
  }'

ゲートウェイは転送する前にメールアドレスを [EMAIL] に書き換えます。アップストリームモデルはアドレスを決して受け取りません。

PII Shield は both ステージのルールですが、ライブのリクエストステージマスキングが今日出荷されているものです — ゲートウェイは、モデルへ出発する前にプロンプトをマスクします。ライブリレー上の出力ステージ（レスポンス）マスキングはロードマップ上にあります。レスポンスステージのルールがどう振る舞うかを検証するには、Test タブで評価してください。ストリーミングについては §5 を参照してください。

4. ほとんどをマスク、最悪のものをブロック — エンティティごとの上書き

単一のルールが entity_actions 経由で異なるエンティティに異なるアクションを適用できます。低リスクの識別子はマスクしつつ、決して転送したくないエンティティはハードブロックします — 3 つの重複するルールの代わりにひとつのルールで：

{
  "type": "pii",
  "stage": "input",
  "action": "mask",
  "entities": ["email", "phone", "ip", "credit_card", "ssn"],
  "entity_actions": {
    "credit_card": "block",
    "ssn": "block"
  }
}

ここでメール、電話、IP はマスクされて通過します；カード番号や SSN を運ぶプロンプトは代わりに HTTP 400 guardrail_blocked で拒否されます。ブロックされたリクエストは クォータを消費しません — 入力ステージのブロックはメータリングの前に発火します — そして skip-retry とマークされます。各 entity_actions キーは、ルール上で宣言されたエンティティ（組み込みまたはカスタム）でなければなりません；そのアクションはルールのアクションセットに対して検証されます。

5. ストリーミングで今日機能するもの

アクションとステージはストリーミングと異なる相互作用をします — それに依存する前にマトリクスを把握してください：

入力ステージの mask または block（任意のレスポンスモード）

完全にライブ。プロンプトはアップストリーム呼び出しの前にスクリーニングされるため、レスポンスがストリームするかどうかに関わらず、マスキングとブロックは同一に機能します。これが PII Shield が今日強制するサーフェスです。

出力ステージの block

ストリーミングと非ストリーミングの両方のレスポンスで強制されます。ストリームでは、スキャナがストリームを途中で切断し、ブロックされたコンテンツがクライアントに到達する前に置換メッセージを発行します；出力ブロックは事前消費されたクォータを返金します。

出力ステージの mask

現在は非ストリーミングのみ。ストリームされたレスポンスでは、元のチャンクがマスクされずに通過します — インバンドのストリーム書き換えは計画中の拡張です。今日レスポンスマスキングを行うには、非ストリーミングリクエストを使うか、入力ステージのマスキングに頼ってください。あなたの正確なステージ/ストリームの組み合わせを、まず Test タブで証明してください。

6. 何が捕捉されたかを確認する

発火したすべてのルールはマッチ — その型、アクション、ステージ、詳細文字列 — を記録し、ワークスペースの Matches フィード（GET /api/guardrail/match、任意のメンバーに開放）で表示できます。そこからグループ化、フィルタ、CSV へのエクスポート、誤検知のマークができます。

生の値はデフォルトではログされません。 ガードレールの Log raw content トグルはオフ — プライバシー保守的な姿勢 — なので、Matches フィードは PII ルールが発火したこととどのエンティティかを記録しますが、マッチした部分文字列（メールアドレス自体）は記録しません。トリアージのために値が必要なときだけ、ガードレールごとにオンにしてください；この設定は遡及しません。PII 漏洩をデバッグするために自分の監査証跡に PII を捕捉するのは本末転倒です。

7. さらに進める

完全なレジデンシー、保持、消去権の制御 — GDPR、HIPAA、PCI DSS 向けにこれらのガードレールを具現化するコンプライアンスパックのインストールを含む — については、以下のリファレンスページから始めてください。

ガードレールリファレンス

すべてのルール型、ステージ、アクション、カスタムエンティティ、バージョニング、そして eval ハーネス — このページの背後にある深いリファレンス。

シークレット漏洩

クレデンシャル形状の兄弟 — AWS、OpenAI、GitHub トークン — Secrets Blocker ガードレールが捕捉します。

安全でない出力

モデルが受け取るものだけでなく、送り返すものをスクリーニングします。

ガードレール vs ファイアウォール

いつテキストをスクリーニングし、いつアクションを統制するか — そしてなぜ通常は両方が必要なのか。

​1. 漏洩はどのように起きるか

​2. PII ガードレールで LLM PII 漏洩を防ぐ

​3. 具体例 — リクエスト上で PII をマスクする

​4. ほとんどをマスク、最悪のものをブロック — エンティティごとの上書き

​5. ストリーミングで今日機能するもの

​6. 何が捕捉されたかを確認する

​7. さらに進める

ガードレールリファレンス

シークレット漏洩

安全でない出力

ガードレール vs ファイアウォール

1. 漏洩はどのように起きるか

2. PII ガードレールで LLM PII 漏洩を防ぐ

3. 具体例 — リクエスト上で PII をマスクする

4. ほとんどをマスク、最悪のものをブロック — エンティティごとの上書き

5. ストリーミングで今日機能するもの

6. 何が捕捉されたかを確認する

7. さらに進める