AI エージェントがゼロトラストを必要とする理由

エージェントは、あなたが完全に作成したリクエストではありません。Web ページを読み、ドキュメントを処理し、それらのソースが伝えることに基づいてツール呼び出しを実行します。それらのソースのいずれも指示を運ぶことができます — そしてエージェントは、インジェクションされたコンテンツに誠実に基づいて行動することで、攻撃者のプロキシになります。アクションをその発信元ではなく、内容で信頼してください。それが AI エージェントのゼロトラストの前提です。このページでは脅威モデルを説明し、各原則を強制する OrcaRouter のコントロールにマッピングします。クイックスタートやハンズオン設定については、ページ下部のリンクを参照してください。

1. 「自分のエージェントを信頼する」が間違ったモデルである理由

従来の境界セキュリティは、誰がリクエストを発行したかに基づいて信頼します。エンティティが認証されると、そのアクションがその信頼を継承します。AI エージェントに対しては、これは即座に壊れます：

エージェントがユーザーの質問に答えるために製品ページを読みます。そのページには  が含まれています。エージェントはそれを信頼されていないコンテンツではなく、指示として見ます。
エージェントが取得したドキュメントを処理し、そのドキュメントが指示した引数で db.query を呼び出します。
エージェントがツール結果から返された URL を取得します。その URL は内部サービスに解決されます。

いずれの場合も、アクションはエージェントが発行しました — 認証済み、正当、承認済みです。そして、いずれの場合も、そのアクションはあなたが意図したものではありませんでした。これが混乱した代理人問題です：エージェントはこのタスクのために獲得していない広範な権限を持ち、攻撃者はエージェントが読むものを制御することでその権限を悪用します。アイデンティティベースの信頼は壊れます。なぜならエージェントが信頼された発呼者だからです。ゼロトラストとは、エージェントではなくアクションを検証することです。

2. プロンプトレベルの安全性だけでは不十分な理由

プロンプトとレスポンスを読むコンテンツフィルターには、以下が見えません：

ツール呼び出し — 何の関数名、何の引数、何の副作用。
Egress — ツールレポートに含まれるネットワーク宛先。
自己インストールされたケイパビリティ — エージェントが実行時にロードした、一度も確認していない MCP サーバーとスキル。
コスト — 暴走ループが 90 秒で高価なツールを 800 回呼び出す。

プロンプト安全性はチャット向けに設計されました：テキストを入力し、テキストを出力し、人間がそれを読みます。エージェントはこれらすべての仮定を壊します。エージェントを保護するには、言葉だけでなくアクションを見るコントロールプレーンが必要です — それを発行したモデルやケイパビリティがどのようにそこに到達したかに関わらず、すべてのツール呼び出しのパス上に位置するものが必要です。

3. 4 つのゼロトラスト原則、OrcaRouter へのマッピング

すべてのリクエストを検証する — 発呼者ではなく

ゼロトラストは安全な境界という概念を拒否します。すべての呼び出しは、どのキーやエージェントが発行したかに関わらず、そのコンテンツで検査されます。OrcaRouter は強制のチョークポイントをゲートウェイに置きます — すべての呼び出しがモデルやツールに到達するために横断しなければならない唯一のパスです：

ゲートウェイを横断するすべてのリクエスト、レスポンス、ツール呼び出し — およびエージェントがゲートウェイを経由してルーティングするすべてのアウトバウンド宛先 — がワークスペースのアクティブなポリシーに対して評価されます。
「信頼されたエージェント」の免除はありません。本番エージェントが発行した呼び出しと、インジェクションされた指示が発行した呼び出しは、発呼者には同一に見えます — ゲートウェイは両方を検査します。
クレデンシャルは暗号化して保存されます。レポートは Ed25519 署名され、公開検証可能です。

最小権限

エージェントは、そのタスクに必要なケイパビリティだけを持つべきです — それ以上は持ちません。OrcaRouter はこれを 2 つのレベルで強制します： スコープされた API キー — 各キーは特定のモデルセット、IP 許可リスト、支出上限、有効期限、および適用されるガードレールとファイアウォールポリシーにバインドされます。エージェントのキーは、インジェクションされた指示が別の場所に誘導しようとしても、そのスコープを超えることができません。スコープキー、ポリシー、ワークスペースを参照してください。 ツール許可リスト — ファイアウォールルールは、キーのエージェントが呼び出すことを許可されるツールを制限できます。読み取り専用の調査エージェントに発行されたキーは、書き込み側のツール — db.insert、fs.write、shell.exec — を、ツールが実行する前に、ゲートウェイで deny するポリシーにバインドできます。エージェントのモデルは呼び出しが成功したことを決して見ません。

スコープキーとファイアウォールポリシーは、Developer+ ロールによって作成・変更されます。ポリシーの読み取りはすべてのワークスペースメンバーに開放されています。

重要なものにはデフォルト deny、意図するものには明示的な allow

オープンエンドの許可は古くなります。tight 自律性レベルはワークスペース全体をデフォルト deny 姿勢に設定します — 破壊的なシェルコマンドと SSRF egress はデフォルトで deny され、Secrets Blocker ガードレールがリクエストからシークレットをスクリーニングします。ブロックしたいものを明示的にブロックするのではなく、必要なアクションを明示的にオープンにします。ポリシーのファイアウォールの default_verdict は allow、audit、または deny にできます。新しく作成されたポリシーはデフォルトで audit になります — すべてを観察し、何もブロックしない — そのため強化する前にエージェントが実際に何をするかを見ることができます。tight 自律性レベルはこれを重要なサーフェスで deny に設定します。

自律性レベル	姿勢
`tight`	デフォルト deny；破壊的シェルと SSRF egress を deny；PII Shield + Secrets Blocker ガードレールをオン。
`balanced`	デフォルト audit、破壊的シェルを deny、PII を flag。推奨される開始姿勢。
`permissive`	強制なし；observe mode がオンなのですべてのアクションがギャップとしてログされます。

POST /api/workspace/firewall/autonomy で自律性レベルを適用します（Developer+）。ファイアウォールとガードレールをアトミックに設定し、ワンクリック取り消し機能があります。

侵害を想定し、証明できる準備をする

ゼロトラストは、一部の呼び出しが通過すること、一部の指示がインジェクションされること、一部のエージェントが誤動作することを想定します。コントロールスタックはそれを想定して設計されています： 監査証跡 — すべてのマッチ、判定、承認がワークスペースのイベントとマッチフィードにログされ、それを引き起こしたエージェント実行に関連付けられます。エージェントが何をしたか、どの順序で、なぜ各呼び出しが許可またはブロックされたかを正確に再構築できます。 異常検出 — ファイアウォールは各ワークスペースの通常のツール使用形状を学習し、逸脱をフラグします：14 日間のローリングベースラインに対するレートとコストのスパイク、リトライループ、そしてワークスペースがこれまで行ったことのないツール間遷移。ファイアウォールを参照してください。 人間による承認 — pending_approval 判定は、ツールに到達する前に帯域外のレビュアーのために呼び出しを保留します。高いリスク、不可逆、または新規のアクションに使用します。エージェントは待機し、レビュアーが承認または拒否し、決定が記録されます。コード変更は不要です。異常検出と承認には行動するために Developer+ が必要です。異常フィードはすべてのメンバーが読み取り可能ですが、Events と Runs フィードには Developer+ が必要です。

4. コントロールスタックの順序

OrcaRouter はこれら 4 つのレイヤーをすべての呼び出しに順番に適用します：

レイヤー	何を強制するか	ゼロトラスト原則へのマッピング
スコープキー	アイデンティティとケイパビリティの境界	最小権限
ガードレール	プロンプトとレスポンスのコンテンツ	すべてのリクエストを検証する（テキスト層）
エージェントファイアウォール	ツール呼び出し、egress、コスト	すべてのリクエストを検証する（アクション層）；デフォルト deny
監査 + 異常	帰属、逸脱検出	侵害を想定する

どのレイヤーも前のレイヤーが決定したことを知らず、信頼しません。ガードレールはテキストをスクリーニングし、ファイアウォールはアクションを統制します — それらは補完的なプレーンであり、冗長なものではありません。各レイヤーがどの脅威を捕捉するかはガードレール vs. ファイアウォールを参照してください。

5. これがインテグレーションに意味すること

ゼロトラスト強制を受けるためにエージェントのコードを変更する必要はありません。エージェントは https://api.orcarouter.ai/v1 を以前と全く同様に呼び出し続けます。ポリシーはゲートウェイに存在します — ワークスペースで一度設定し、キーをアタッチし、そのキーが発行するすべての呼び出しが次のリクエストから統制されます。デフォルトの姿勢（audit + observe mode）は非破壊的です：すべてをログに記録し、何もブロックしないので、ルールを書く前にエージェントの実際のツール使用を観察できます。そこから始めてください。

ゲートウェイの設定はロールゲートされています。 ポリシーと設定の読み取りはすべてのワークスペースメンバーに開放されています；ファイアウォールの Events と Runs フィードには Developer+ が必要です。ガードレール、ファイアウォールポリシー、キー、自律性レベルの作成または変更には Developer+ が必要です。コンプライアンスレポートとゲートウェイキープレーンテキストの読み取りには Admin が必要です。

コントロールスタック

4 つのレイヤーがすべてのリクエストでどう構成されるか — キーから監査までの完全な強制パス。

セキュアエージェントベースライン

推奨される開始姿勢 — ひとつの自律性レベル、実際のトラフィックを観察し、それから強化する。

クイックスタート

5 分でゼロトラストをオンにする。

​1. 「自分のエージェントを信頼する」が間違ったモデルである理由

​2. プロンプトレベルの安全性だけでは不十分な理由

​3. 4 つのゼロトラスト原則、OrcaRouter へのマッピング

​すべてのリクエストを検証する — 発呼者ではなく

​最小権限

​重要なものにはデフォルト deny、意図するものには明示的な allow

​侵害を想定し、証明できる準備をする

​4. コントロールスタックの順序

​5. これがインテグレーションに意味すること

コントロールスタック

セキュアエージェント ベースライン

クイックスタート

1. 「自分のエージェントを信頼する」が間違ったモデルである理由

2. プロンプトレベルの安全性だけでは不十分な理由

3. 4 つのゼロトラスト原則、OrcaRouter へのマッピング

すべてのリクエストを検証する — 発呼者ではなく

最小権限

重要なものにはデフォルト deny、意図するものには明示的な allow

侵害を想定し、証明できる準備をする

4. コントロールスタックの順序

5. これがインテグレーションに意味すること

セキュアエージェントベースライン