メインコンテンツへスキップ

AI エージェントセキュリティ用語集

ゼロトラストドキュメント全体で使用されるすべての用語のクイックリファレンスインデックス。 各定義は、ホスト型ゲートウェイの開発者として観察・設定できるものにスコープされています。 用語は詳細のためのホームページにリンクされています。

アイデンティティとスコープ

用語定義
ワークスペーストップレベルのテナント境界。すべてのキー、ガードレール、ファイアウォールポリシー、監査イベントはひとつのワークスペースに属します;テナント境界を越えるものは何もありません。スコープ、キーとポリシーを参照。
API キー(スコープキー)エージェントがすべての呼び出しで提示するベアラートークン。独自のモデル許可リスト、IP 制限、支出上限、有効期限、そして適用されるガードレールとファイアウォールポリシーを持ちます。スコープ、キーとポリシーを参照。
model_limitsキーが呼び出すことができるモデル(またはモデルグロブ)のセット。リスト外のモデルへのリクエストはアップストリーム呼び出しの前に拒否されます。
allow_ipsキーの IP または CIDR 許可リスト。リスト外のアドレスから発信されるリクエストは認証時に拒否されます。
credit_limit_usd(支出上限)USD でのキーのハードな支出上限。キーの累積使用量が上限に達すると、それ以降のリクエストは拒否されます。暴走エージェントループを抑制するのに役立ちます。
環境タグキーにアタッチされてデプロイメント環境ごとに整理・識別するためのフリーフォームラベル(例:productionstaging)。
is_firewall_gatewayファイアウォールゲートウェイルート(/api/v1/firewall/*)— MCP ディスパッチと evaluate フックエンドポイント — のためにキーをスコープするフラグ。通常のキーはそれらのルートで 403 を受け取ります。
最小権限エージェントに実際に必要なモデル、支出、IP、ポリシーのみを与える原則 — それ以上は与えません。同じキーの model_limitsallow_ipscredit_limit_usd、制限的なファイアウォールポリシーを組み合わせて実装されます。スコープ、キーとポリシーを参照。

ガードレール

用語定義
ガードレール名前付きの、ワークスペーススコープのコンテンツポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する順序付けられたルールのリスト。キーにアタッチ(またはワークスペースデフォルトとして設定)すれば、すべてのバインドされた呼び出しが再デプロイなしにスクリーニングされます。
ルールガードレール内のひとつのチェック:タイプ(何を検出するか)、ステージ(どこを確認するか)、アクション(どうするか)。ルールは順番に実行されます。
ステージinput(発呼者のリクエスト)、output(モデルのレスポンス)、または both。ルールは宣言されたステージでのみ発火します。
アクションblock — リクエスト全体を拒否(HTTP 400);mask — マッチをリダクトして呼び出しを通す;flag — ログのみ、トラフィック変更なし。
guardrail_blockedガードレールルールが block アクションを発火したときに返されるエラーコード。HTTP 400 を返します。リクエストはクォータを消費しません — 入力ステージのブロックはメータリングの前に発火します;出力ステージのブロックは事前消費されたクォータを返金します。
PII Shield組み込みの機密エンティティタイプ(メール、電話、SSN、クレジットカード、IP など)を検出し、型付きタグでマスクする pii タイプのルール。(pii ルールタイプは独自に作成する場合、エンティティごとの block もサポートします。)データ損失防止の正典的な出発点。シークレットとクレデンシャルは別の Secrets Blocker プリセットでカバーされます。
プロンプトインジェクション ガードレール信頼されていないコンテンツ(Web ページ、ツール結果)がエージェントの指示をハイジャックしようとする試みを検出する安全ルール。Safety テンプレートカテゴリの Prompt-Injection Basics プリセットとして提供されます。
機密ワードフィルターリテラル用語リストに大文字小文字を区別せずにマッチする keyword タイプのルール。最もシンプルな拒否リスト。
LLM judgeワークスペース内のモデルに対してセマンティックチェック(有害性、トピック外、jailbreak の意図)を実行する llm_judge タイプのルール。正規表現が捉えられない曖昧なポリシーに使用します。トークンは judge サブラインとして課金されます。
コンテキスト整合性モデルの回答をリクエスト上の RAG ソースに対して測定し、それらに忠実でない回答をフラグまたはブロックする grounding タイプのルール。
Log raw contentガードレールごとのトグル — デフォルトでオフ(プライバシー保守的)。オフの場合、Matches フィードはルールが発火したことを記録しますが、マッチした部分文字列は記録しません。トリアージのために実際の文字列が必要なときはガードレールごとにオンにします。
Matches フィードすべての発火したルールのワークスペース全体の記録:ルールタイプ、アクション、ステージ、詳細文字列、(Log raw content がオンの場合は)マッチした部分文字列。ガードレール、ルールタイプ、アクションでフィルタリング可能。

エージェントファイアウォール

用語定義
ファイアウォールポリシーゲートウェイがすべてのツール呼び出しで評価する、名前付きの、ワークスペーススコープの順序付けられたルールセット。キーにアタッチ(またはワークスペースデフォルトとして設定)すれば、エージェントのコード変更不要。
判定ルール(またはデフォルト)がツール呼び出しに対して生成する結果。allowauditdenysanitizepending_approvalcap_cost のいずれか。
デフォルト判定ポリシー内のルールがツール呼び出しにマッチしない場合に適用される判定。デフォルトは audit — 強制する準備ができるまですべてを許可して記録します。
強制サーフェスファイアウォールが呼び出しを見るリクエストライフサイクルのポイント:inbound(エージェントがアドバタイズするツール定義)、response(モデルが発行するツール呼び出し)、mcp(MCP ゲートウェイ経由の tools/call)、または egress(ツールが報告するアウトバウンド宛先)。ファイアウォールを参照。
ツール許可リスト(グロブ)ルール上の tool_name_glob — ツール名またはファミリーにマッチする小さな大文字小文字を区別する文法(shell.**.exec*)。順序付けられたルールリストに対して最初マッチが勝ちます。
引数検証ルールの args_match 句 — ツールの引数の JSONPath フィールドに対する eqcontainsregexincidr_matchgtlt オペレーター。「shell.exec をブロック」と「コマンドが rm -rf の場合のみ shell.exec をブロック」の違い。
Sanitizeツール引数からマッチした部分文字列(シークレット、PII)をリダクトし、アクション全体をブロックするのではなくクリーンな呼び出しを転送する sanitize 判定。inbound サーフェスではブロックにエスカレートします。
Egress コントロールホスト/CIDR 許可または拒否リストを持つ egress サーフェスルール — SSRF とデータ持ち出しに対する主要な防御。tight 自律性レベルも一般的な fetch 形状のツール(http_fetchfetch_urlweb_searchrequest)を deny します。
cap_costエージェント実行の累積支出(セント)がルールごとの上限を超えたらツール呼び出しを deny する判定。暴走エージェントループのサーキットブレーカー;ルールとして作成され、累積支出に基づいてイベントで allow または deny として解決されます。
シーケンスルール時間ウィンドウ内のツール呼び出しの順序付けられた複数ステップチェーン(例:一括読み取り → エクスポート → egress)にマッチする sequence ブロックを持つルール。非同期マッチャーによってリアクティブに強制されます;イベントフィードに表示されます。
firewall_blocked拒否されたツール呼び出しのエラーコード。inbound では HTTP 400 を返します;mcp ではツールエラー。skip-retry とマークされます。
承認 / HITLpending_approvalpending_approval 判定はツール呼び出しを人間によるレビューのために保留します。エージェントは承認 id を持つ保留中のレスポンスを受け取り、レビュアーが帯域外で承認または拒否し、エージェントは単回使用の承認トークンで再送信します。保留中の HTTP エラーコードは firewall_approval_pending です。
異常検出静的ルールの上の統計レイヤー。ツールごとのアクティビティを 14 日間の曜日ベースラインに対してスコアリングし、スパイク、リトライループ、新しいツール遷移パスをレビュー可能なフィードにフラグします。

姿勢

用語定義
Observe modeワークスペースレベルの設定。オンでキーにポリシーがアタッチされていない場合、ツール呼び出しは許可されますがカバレッジギャップとしてログされ、Discovered-tools ビューに反映されます。
Shadow modeポリシーのフラグ。ポリシーは本番と全く同様に評価してログを取りますが、すべての強制判定は audit に格下げされます(理由には [shadow] would … が前置されます)。安全なロールアウトスイッチ。
EnforceShadow mode がオフでポリシーがアタッチされているときのデフォルト状態。判定が効果を持ちます — deny はブロックし、sanitize はリダクトし、pending_approval は保留します。
自律性レベルワークスペースのファイアウォールとガードレール姿勢をひとつのトランザクションでアトミックに置き換えるひとつのスイッチ(tight / balanced / permissive)、ワンクリック取り消しつき。強制モードセキュアエージェント ベースラインを参照。

MCP とスキル

用語定義
MCP サーバーワークスペースに登録され、ファイアウォール MCP ゲートウェイ(api.orcarouter.ai/api/v1/firewall/mcp)経由で公開される Model Context Protocol サーバー。受け取るすべての tools/call はインラインで評価されます。ファイアウォール MCPを参照。
tools/callツールを MCP サーバーにディスパッチする MCP プロトコルメッセージ。ファイアウォールは転送前に mcp サーフェスでそれを評価します。
ラグプルMCP サーバーまたはインストールされたケイパビリティがアクセスを許可した後にツール定義を変更または拡張するサプライチェーンリスク。OrcaRouter は被害範囲を統制します:すべての MCP tools/call はルールに対して mcp サーフェスでファイアウォール評価され、リスクありとスキャンされたスキルは人間がレビューするまで quarantine に保留されます。
スキルゲートウェイが登録時にリスクスキャンするケイパビリティバンドル(ひとつ以上の MCP サーバーからのひとつ以上のツール)。各スキルはリスクバンドと強制モード(allowquarantineblock)を取得し、ポリシーレベルの判定の上に乗ります。

コンプライアンスとデータ

用語定義
コンプライアンスパック規制プロファイル(GDPR、PCI、HIPAA、財務データ)の事前構築されたガードレールとファイアウォールポリシーバンドル。テンプレートライブラリから一度適用します;ルールは適用後に編集可能です。
署名付きコンプライアンスレポートEd25519 で署名されたワークスペースレベルの証明レポート。署名は公開検証可能です — 公開鍵を持つ誰もがレポートが改ざんされていないことを確認できます。
データ居住地コンプライアンス証拠に記録される地域。署名付きコンプライアンスレポートは地域でスタンプ・保存(useuukapcnglobal)され、レポートはマッチする宣言された地域の下でのみ提供されます。コンプライアンス設定で設定します。
消去の権利ワークスペース削除または明示的な消去リクエストで、OrcaRouter は 30 日間の猶予期間を与え、その後そのワークスペースのログと監査記録から PII をスクラブします。
監査イベントすべての作成、更新、削除、強制決定の後に書き込まれる不変の記録 — ポリシー変更、ルール編集、承認解決、ガードレール保存。シークレット値とルールブロブは決して監査ログに書き込まれません。

脅威(ひと言)

脅威内容
プロンプトインジェクション攻撃者がエージェントが取り込むコンテンツ(直接:ユーザーのメッセージ内;間接:Web ページ、ドキュメント、またはツール結果内)に指示を埋め込み、エージェントの動作をハイジャックします。
Jailbreakモデルの安全トレーニングをバイパスしようとする巧妙なプロンプト、通常はリクエストをロールプレイ、仮定、またはシステムオーバーライドとしてフレーミングすることで。
過剰な権限 / 混乱した代理人タスクに必要以上の権限を与えられたエージェント、インジェクションされた指示によって些細に悪用可能にします — 主要な緩和策は最小権限です。
データ持ち出しエージェント(またはインジェクションされた指示)がツール呼び出しまたはアウトバウンドリクエストを操作して機密データを攻撃者が制御するエンドポイントに漏洩します。egress コントロールルールによって緩和されます。
Denial-of-wallet暴走または敵対的にトリガーされたエージェントが無制限のアップストリームモデル支出を生成します。キーの credit_limit_usd とファイアウォールポリシーの cap_cost ルールによって緩和されます。

これらのコントロールがどのように構成されるかの全体像については、 OrcaRouter による AI エージェントのセキュリティ を参照してください。