キーをガードレールとファイアウォールポリシーにバインドする

あなたはワークスペース向けにガードレールとファイアウォールポリシーを作成しました。今度は この 1 つのキー — あなたの財務エージェントが使うもの — に、ワークスペースの残りより厳格なコンテンツポリシーとより厳しいツール許可リストを実行させたいと考えています。それが、キー上の 2 つのアタッチメントフィールドが行うことです：ガードレールとファイアウォールポリシーを 1 つのキーにバインドすると、そのキーが行うすべてのリクエストが、まさにそれらのポリシーによってスクリーニングおよび強制されます — エージェントのコード変更なし、再デプロイなし。このページは 2 つのフィールド、それらがリクエスト時にどう解決されるか、そして人々がつまずく 1 つの解決ルールを扱います：無効化されたファイアウォールアタッチメントは、無効化されたガードレールアタッチメントとは異なる挙動をします。

1. キーごとのセキュリティポリシー：キー上の 2 つのフィールド

ガードレールはモデルを流れるテキスト（PII、シークレット、jailbreak）をスクリーニングします。ファイアウォールポリシーはエージェントが発行するツール呼び出し（どのツール、どの MCP サーバー、どのホスト）を統制します。どちらもワークスペーススコープの名前付きポリシーであり — 一度作成され、ワークスペース全体で共有されます — キーは 2 つのフィールドを通じて特定のものにオプトインします：

フィールド	バインドするもの	コンソールでの設定
`guardrail_id`	このキーのプロンプトとレスポンスをスクリーニングするガードレール。	Developer+
`firewall_policy_id`	このキーのツール呼び出しを評価するファイアウォールポリシー。	Developer+

どちらも /console/token のキーエディタで設定します。いずれかを設定するのは Developer+ のアクションです — ポリシー自体も Developer+ で作成されます（スコープとキーを参照）。

この 2 つのフィールドは独立しています。キーはガードレールをアタッチしてファイアウォールポリシーをアタッチしない、その逆、両方、あるいはどちらもなし — 各プレーンは独立して解決します。フィールドを未設定（0）のままにすることは、強制をオフにすることと同じではありません；§3を参照してください。

2. ひとつの具体例

あなたのワークスペースデフォルトのガードレールが PII をフラグするが通過させ、デフォルトのファイアウォールポリシーがすべてのツール呼び出しを audit するとしましょう。それはほとんどのエージェントには問題ありません — しかしあなたの財務エージェントは顧客の SSN を扱い、決してシェルツールを呼ぶべきではありません。より厳格な finance-guardrail（PII を完全にブロック）と finance-firewall（必要な 3 つのツールのみ許可リスト化）を作成し、その両方をそのエージェントのキーにバインドします：

# CONSOLE 経由で設定（UserAuth — あなたのセッション）、リレーキーではない。
# これは /console/token のエディタが行うキー更新呼び出しです。
PUT /api/token
{
  "id": 4127,
  "name": "finance-agent",
  "guardrail_id": 12,          // finance-guardrail (PII = block)
  "firewall_policy_id": 8      // finance-firewall (3-tool allow-list)
}

次のリクエストから、そのキーのトラフィックはガードレール 12 によってスクリーニングされ、そのツール呼び出しはポリシー 8 によって評価されます — 一方、ワークスペース内の他のすべてのキーはワークスペースデフォルトを実行し続けます。エージェント自身のコードは決して変わりません；以前と全く同様に sk-orca-… キーで https://api.orcarouter.ai/v1/... を呼び続けます。

これが最小権限パターンです：エージェントごとに 1 つの狭くスコープされたキー、それぞれがその仕事が実際に必要とするポリシーにバインドされます。そのエージェントが侵害されたとき、被害範囲はそのキーが認可されていたことが何であれ — それ以上は何もありません。最小権限チェックリストを参照。

3. 解決：人々がつまずくルール

すべてのリクエストについて、ゲートウェイはアクティブなガードレールとアクティブなファイアウォールポリシーを独立して解決します。順序は両方とも同じに見えます — アタッチメントが先、ワークスペースデフォルトが次 — が、1 つのケースで分岐します。

ガードレール解決

アタッチされ有効 → それを使う

キーの guardrail_id が、存在し有効なガードレールを指しています。そのガードレールがリクエストをスクリーニングします。

アタッチされているが無効化または削除 → ガードレールなし

アタッチされたガードレールを無効化することはオフスイッチです。キーは いかなるコンテンツスクリーニングも受けません — ワークスペースデフォルトに フォールバックしません。これは意図的です：ガードレールをアタッチして無効化するのが、そのキーのスクリーニングをオフにする方法です。

未設定（0）→ ワークスペースデフォルト

キーに guardrail_id がありません。ワークスペースの有効なデフォルトガードレールが、設定されていれば適用されます。

どちらもなし → 強制なし

アタッチメントもワークスペースデフォルトもない → リクエストはコンテンツスクリーニングなしで通過します。

ファイアウォール解決

アタッチされ有効 → それを使う

キーの firewall_policy_id が、存在し有効なポリシーを指しています。そのポリシーがキーのツール呼び出しを評価します。

アタッチされているが無効化 → ワークスペースデフォルト

ここが違いです。無効化されたファイアウォールアタッチメントはワークスペースデフォルトのファイアウォールポリシーにフォールバックします — 強制をオフには しません。ファイアウォールアタッチメントを無効化すると、キーはワークスペースデフォルトに戻ります；キーを無防備のまま残しはしません。

未設定（0）→ ワークスペースデフォルト

キーに firewall_policy_id がない → ワークスペースの有効なデフォルトファイアウォールポリシーが適用されます。

アタッチされたポリシーの無効化は対称ではありません。 無効化されたガードレール アタッチメントは、そのキーにガードレールなしを意味します。無効化されたファイアウォール アタッチメントは、ワークスペースデフォルトへのフォールバックを意味します。キーに本当にファイアウォール強制をまったく実行させたい場合、そのアタッチメントを無効化してはそこに到達できません — ワークスペースデフォルトのファイアウォールポリシーが設定されていないことを確認してください（あるいは、キーが統制されるツール呼び出しを発行しないようにスコープしてください）。

ワークスペースごとに、いつでも最大 1 つのガードレールと 1 つのファイアウォールポリシーがデフォルトになれます；新しいデフォルトをプロモートすると、同じトランザクション内で古いものが降格されるため、誤って 2 つ持つことは決してありません。

4. ブロックがどう見えるか

バインドされたポリシーがリクエストを拒否すると、呼び出し元は構造化されたエラーを見ます — エージェントはクラッシュする代わりに反応できます：

プレーン	エラーコード	HTTP	コスト
ガードレール	`guardrail_blocked`	400	なし — 入力ブロックは課金前に発火し、出力ブロックは返金します。skip-retry とマーク。
ファイアウォール（inbound）	`firewall_blocked`	400	inbound ブロックはモデル呼び出しの前に発火するため、モデルトークンなし。skip-retry。
ファイアウォール（保留）	`firewall_approval_pending`	400	人間による承認のために保留；エージェントはポーリングし、承認されると再送信します。

どちらのエラーボディも OpenAI 形式で、ポリシーと理由を名指しするため、エージェントはコードに応じて分岐できます。完全なイベントレコードとマッチがどうログされるかについては、詳細リファレンスを参照してください。

5. 次に進む先

スコープとキー

完全な 3 レベルモデル — ワークスペース、ポリシー、キー — と、キーが運ぶすべてのフィールド。

トークンオブジェクト

キー上のすべてのフィールド：model_limits、allow_ips、credit_limit_usd、 expired_time、そして 2 つのポリシーアタッチメント。

ガードレール

guardrail_id でバインドするコンテンツポリシーを作成 — ルール、PII エンティティ、アクション、プリセット。

ファイアウォール

firewall_policy_id でバインドするツール呼び出しポリシーを作成 — 判定、サーフェス、自律性レベル。

キーを 1 つずつバインドする代わりに、ワークスペース全体の姿勢を一手で設定したいですか？ 自律性レベルは両方のプレーン — ガードレールとファイアウォール — を一度に書き込みます。それから、ワークスペースデフォルトよりさらに踏み込む必要のある少数のキーに、より厳格なポリシーをアタッチしてください。ガードレール vs ファイアウォールを参照。

​1. キーごとのセキュリティポリシー：キー上の 2 つのフィールド

​2. ひとつの具体例

​3. 解決：人々がつまずくルール

​ガードレール解決

​ファイアウォール解決

​4. ブロックがどう見えるか

​5. 次に進む先

スコープとキー

トークンオブジェクト

ガードレール

ファイアウォール

1. キーごとのセキュリティポリシー：キー上の 2 つのフィールド

2. ひとつの具体例

3. 解決：人々がつまずくルール

ガードレール解決

ファイアウォール解決

4. ブロックがどう見えるか

5. 次に進む先