OrcaRouter による AI エージェントのセキュリティ

AI エージェントはチャットボットではありません。信頼されていない Web ページを読み、ツールを呼び出し、費用を支払い、内部ホストに到達し、実行時に見つけたケイパビリティをロードします。それらのひとつひとつが現実世界への影響を持つアクションであり、そのほとんどは人間が介在せずに発生します。 OrcaRouter はエージェントとそれが呼び出すすべてのモデルの間のパス上に位置するため、 すべてのリクエストとレスポンス — そしてエージェントがゲートウェイを経由してルーティングするすべてのツール呼び出しとアウトバウンド宛先 — をプロバイダに関わらず見ることができる唯一の場所です。そのチョークポイントがゼロトラスト強制の置き場所です。ワークスペースで一度設定すれば、エージェントは引き続き https://api.orcarouter.ai/v1 を以前と全く同様に呼び出し続けます。

1. 脅威：エージェントはチャットするだけでなくアクションを取る

プロンプトレベルの安全性はチャット向けに作られました。モデルがテキストを生成し、人間がそれを読むと仮定しています。エージェントはその仮定を壊します：

信頼されていないコンテンツを取り込みます — Web ページ、取得されたドキュメント、ツール結果 — これらは指示（プロンプトインジェクション）を運ぶことができます。
ツールを呼び出します — shell.exec、db.query、決済 API — これらは不可逆な操作を行います。
ネットワークに到達します — 攻撃者が内部サービスや持ち出しエンドポイントへ誘導できる URL を取得します。
自己拡張します — 一度も確認していないスキル、プラグイン、MCP サーバーをインストールします。

これらはいずれも、プロンプトを読むだけのコンテンツフィルターには見えません。エージェントを保護するということは、アイデンティティ、コンテンツ、アクション、ネットワークを統制し、すべての監査証跡を保持することを意味します。

2. コントロールスタック

OrcaRouter はすべてのリクエストに 4 つのレイヤーを適用します。各レイヤーは独立しており、ワークスペーススコープで、コード変更なしに API キーにアタッチされます。

スコープキー

最小権限のアイデンティティ。特定のモデル、IP、支出上限、有効期限、および適用されるガードレールとファイアウォールポリシーにバインドされます。

ガードレール

コンテンツ制御。プロンプトとレスポンスをスクリーニング — PII、シークレット、インジェクション、安全でない出力を block、mask、または flag します。

エージェントファイアウォール

アクション制御。ツールの許可リスト、ツール呼び出し引数の検証とサニタイズ、承認のための保留、egress とコストの上限。

監査

帰属。すべてのマッチ、判定、承認がログに記録され、それを引き起こしたエージェント実行に関連付けられます。

リクエストはこの順序で流れます：キーが呼び出しが許可されるかどうかとどのポリシーがバインドされるかを決定し、ガードレールが入力テキストをスクリーニングし、モデルが実行され、ファイアウォールがすべてのツール呼び出しとアウトバウンド宛先を判断し、 ガードレールが出力をスクリーニングし、すべての決定が監査証跡に記録されます。完全なパスについてはコントロールスタックを参照してください。

3. 「ゼロトラスト」とは何か

ゼロトラストとは、リクエストがどこから来たかによって信頼されないことを意味します。ツール呼び出しは、自分のエージェントが発行したという事実ではなく、それが何であるかで判断されます — エージェントが信頼されていないページから読み取ったインジェクションされた指示に基づいて行動している可能性があるからです。OrcaRouter は、重要なアクションに対してデフォルト deny を、意図したアクションに対して明示的な許可リストを使用してこれを強制します。 AI エージェントがゼロトラストを必要とする理由がモデルを詳しく説明しています。

4. すべてはゲートウェイに存在する

コントロールスタックはワークスペースで設定され、アプリケーションではなくゲートウェイで強制されます：

一度アタッチすれば、どこにでも適用されます。 ガードレールとファイアウォールポリシーを API キーにバインドします。そのキーが行うすべての呼び出しがスクリーニングされます。ポリシーを編集すると、アタッチされたすべてのキーが次のリクエストで変わります。
再デプロイ不要、SDK 変更不要。 エージェントは同じ OpenAI 形式の呼び出しを発行し続けます。ルールが発火するまで強制は見えません。
プロバイダに依存しません。 同じポリシーが GPT、Claude、Gemini、その他の上で動作します — テキストとアクションをスクリーニングするのであり、モデル選択ではありません。

設定はワークスペース内でロールゲートされています。 ポリシーと設定の読み取りはすべてのメンバーに開放されています。ファイアウォールの Events および Runs フィードには Developer ロールが必要です。ガードレール、ファイアウォールポリシー、キーの作成または変更には Developer が必要です。コンプライアンスとゲートウェイキーの変更には Admin が必要です。これらのドキュメント全体で、各設定ステップに必要なロールが記載されています。

5. 高速パス：ひとつのスイッチ

保護を受けるためにルールを作成する必要はありません。自律性レベルはワンクリックの取り消しとともに、ひとつのステップでワークスペース全体のファイアウォール およびガードレールの姿勢を設定します：

レベル	内容
`tight`	デフォルト deny；破壊的ツールと SSRF egress をブロック；PII + シークレットガードレールをオン。
`balanced`	デフォルト audit、破壊的シェルを deny、PII を flag。推奨される開始姿勢。
`permissive`	何も強制しないが、すべて観察するためエージェントの動作は引き続き見えます。

これがセキュアエージェントベースラインです — まずそこから始め、エージェントが実際に何をするかを観察し、それから強化します。

6. 次のステップ

クイックスタート

5 分でゼロトラストをオンにする。

ゼロトラストの理由

設計の背後にある脅威モデル。

ガードレール vs. ファイアウォール

どのレイヤーがどの脅威を捕捉するか。

あなたの責任

ゲートウェイが保護するものと、あなたが管理するもの。

ゼロトラストの理由

​1. 脅威：エージェントはチャットするだけでなくアクションを取る

​2. コントロールスタック

スコープキー

ガードレール

エージェントファイアウォール

監査

​3. 「ゼロトラスト」とは何か

​4. すべてはゲートウェイに存在する

​5. 高速パス：ひとつのスイッチ

​6. 次のステップ

クイックスタート

ゼロトラストの理由

ガードレール vs. ファイアウォール

あなたの責任

1. 脅威：エージェントはチャットするだけでなくアクションを取る

2. コントロールスタック

3. 「ゼロトラスト」とは何か

4. すべてはゲートウェイに存在する

5. 高速パス：ひとつのスイッチ

6. 次のステップ