セキュリティ FAQ

コントロールページを読み終え、出荷する前に残った質問がひとつあります。これは AI エージェントセキュリティ FAQ — ゼロトラストセクション全体にまたがる横断的な質問を、ひとつの場所で回答し、それぞれが深掘り用のリファレンスにリンクしています。このセクションがまったく初めてなら、 AI エージェントのセキュリティとコントロールスタックから始めてください；このページは、2 つの強制プレーン — ガードレール（プロンプト/レスポンスのテキスト）とファイアウォール（エージェントのアクション） — があることを知っていると仮定し、ただエッジを固める必要があるだけと想定しています。

1. AI エージェントセキュリティ FAQ — ここから始める

どのコントロールがどの質問に答えるかの 30 秒のマップ：

あなたが尋ねていること…	プレーン	読む
プロンプトまたはレスポンス内のテキスト（PII、シークレット、jailbreak）	ガードレール	ガードレール
ツール呼び出し、MCP、egress、スキル	ファイアウォール	ファイアウォール
`400` でどちらが発火したか	どちらか	なぜブロックされたのか？

ホスト型ゲートウェイ上のすべてのセキュリティブロックは、マシン可読な code を伴う HTTP 400 です。まずコードを読んでください — それが正しいフィードへとあなたをフォークします。完全なテーブルはエラーコードにあります。

2. ガードレール — コンテンツスクリーニング

リクエストでガードレールが解決しなかった場合はどうなる？

何も起きません。解決は：キーの明示的 guardrail_id（存在し有効である場合）→ それ以外はワークスペースの is_default ガードレール → それ以外は強制なし、です。 無効化された明示的アタッチメントはオフスイッチです — デフォルトにフォールバック しません。何も解決されなければ、リクエストはこの機能を一度も有効化していないワークスペースとバイト単位で同一です。

ブロックされたリクエストはクォータを消費しますか？

いいえ。block アクションは 400 guardrail_blocked を返し、クォータを消費しません — 入力ステージのブロックはメータリングの前に発火し；出力ステージのブロックは事前消費されたクォータを返金します。また skip-retry とマークされています：同一のプロンプトを再実行しても再びブロックされるだけです。

どんなルールタイプとアクションがありますか？

ルールタイプ：keyword、regex、pii、max_chars、external、llm_judge、 grounding。アクション：block（拒否）、mask（リダクトして転送）、flag （ログのみ、トラフィック変更なし）。ステージ：input、output、both。それぞれについてはガードレールを参照してください。

どの PII エンティティが検出され、マスクはどう見えますか？

組み込みエンティティには email、phone、credit_card、ssn、ip、iban、 mac_address、jwt、aws_access_key、api_key_openai、bitcoin_address、加えて地域タイプ（jp_mynumber、kr_rrn、cn_resident_id）が含まれます。mask アクションは型付きタグをレンダリングします — jane@acme.com → [EMAIL]、SSN → [SSN]。ルールごとに最大 25 個のカスタム正規表現エンティティ（オプションの Luhn チェックサムつき）を重ね、entity_actions 経由でエンティティごとにアクションをオーバーライドできます。

出力マスキングはストリーミングレスポンスで強制されますか？

出力 block は両方の方法で強制されます — 非ストリーミングレスポンスは返る前にスクリーニングされ、ストリーミングスキャナはストリームを途中で切ります。出力 mask は現在、非ストリーミングのみです；ストリーミングレスポンスでは、チャンクはマスクされずに通り過ぎます（帯域内のストリーム書き換えはロードマップ上にあります）。入力ステージのマスキング — モデルが見る前にリクエストをサニタイズする — は、いずれにせよライブです。PII Shield プリセットは、今日入力ステージでマスクします。

LLM ジャッジのコストは？

keyword / regex / pii / max_chars ルールはモデル呼び出しをせず、何も課金しません。llm_judge ルールは、ワークスペースモデルを通じてセマンティックチェックを実行し（judge_timeout_ms で制限され、デフォルトはフェイルオープン）、別の ジャッジサブラインとして課金されます。grounding ルールは、同じ方法で、リクエストの取得されたソースに対して回答の忠実性をスコアリングします（しきい値のデフォルトは 0.7）。

ルールが実際に何にマッチしたかを見られますか？

Matches フィードを開きます（GET /api/guardrail/match、Member）。各行は、ルールタイプ、アクション、ステージ、詳細文字列を記録します — そして、そのガードレールで “Log raw content” がオンの場合のみ、マッチした部分文字列を記録します（デフォルトはオフ、プライバシー保守的な姿勢）。誤ったブロック？誤検知としてマークします（POST /api/guardrail/match/:id/mark-fp、Admin）。

既知の CVE について依存関係をスキャンしますか？

ガードレールは、テキストをブロックもマスクもせずに、プロンプトをコードセキュリティアドバイザリ（例：参照されたパッケージ上の CVE/SBOM ノート）でデコレートできます。これは、リクエストを拒否するのではなく拡張するアノテーション層です — あなたが直接オーサリングする block / mask / flag アクションとは区別されます。それを駆動するには、Integrations 下でスキャナを接続してください。

3. ファイアウォール — エージェントのアクション

ファイアウォールは解決においてガードレールとどう異なりますか？

ひとつの重要な違い：無効化されたアタッチ済みファイアウォールポリシーはワークスペースデフォルトにフォールバックしますが、無効化されたアタッチ済みガードレールはなしに解決します。それ以外では、両方ともキー（firewall_policy_id / guardrail_id）経由でアタッチし、ワークスペースデフォルトのフォールバックを共有します。ガードレール vs ファイアウォールを参照してください。

判定とサーフェスは何ですか？

判定：allow、audit、deny、sanitize、pending_approval、cap_cost。 default_verdict は allow / audit / deny（デフォルトは audit）。サーフェス： inbound（アドバタイズされたツール）、response（モデルが発行する tool_calls）、 mcp（tools/call）、egress（アウトバウンド host/IP/CIDR）。判定用語集が各々を解読します。

`sanitize` はツールが返すものをクリーンアップしますか？

いいえ — そしてこれが一般的な誤解です。sanitize 判定は、ツール呼び出しの引数からマッチした部分文字列のみをリダクトし、ツールが返すコンテンツは決して触りません。 inbound サーフェス（まだ呼び出し時の引数なし）では、sanitize は deny にエスカレートします。

自律性レベルは何をしますか？

ひとつのスイッチが、実在する編集可能な autonomy_* 行を書き込んで、あなたの姿勢全体を設定します：
• balanced（推奨される開始） — デフォルト audit、破壊的シェルを deny、 PII Shield は audit のみ（PII をフラグ）。
• tight — デフォルト deny、破壊的シェルを deny、SSRF 形状のフェッチツールを deny、PII Shield + Secrets Blocker を強制。
• permissive — 観察のみ。
ワンクリック取り消しは、適用が書き込んだ監査スナップショットから直前の状態を復元します。それは単一のステップです — 後の適用（または手動のポリシー編集）がそのスナップショットを上書きすると、取り消しは利用できなくなります。強制モードを参照してください。

SSRF プリセットはプライベート IP とクラウドメタデータをブロックしますか？

プリセットではしません。tight 自律性の SSRF プリセットは、一般的なフェッチ形状のツール名（http_fetch、web_search、fetch_url、request）を deny します。宛先で deny するには — RFC-1918 範囲、クラウドメタデータ IP、特定の CIDR — 自分自身の egress サーフェスの host/CIDR deny ルールをオーサリングしてください。CIDR ルールを出荷するプリセットはありません。 Egress とデータ持ち出しを参照してください。

トラフィックを壊さずにポリシーをロールアウトするには？

シャドウモードをオン（ポリシーごと）にします：ポリシーは評価しログを取りますが、すべての強制判定を audit に格下げし、理由に [shadow] would … を前置します。 Events と Runs ビューを監視し、それからシャドウをオフにして強制します。ワークスペースレベルの観察モード（firewall_observe_mode）は、補完的な発見のダイヤルです — カバーされていない呼び出しを Discovered Tools でギャップとしてログします。

人間による承認（HITL）はどう機能しますか？

pending_approval 判定は、承認 id とともに 400 firewall_approval_pending を返します。レビュアーがコンソールから（Developer+）または HMAC webhook コールバック（POST /api/v1/firewall/approvals/:id/callback）経由でそれを解決します。エージェントは GET /api/v1/firewall/approvals/:id をポーリングし、単回使用の X-OrcaRouter-Firewall-Approval ヘッダーとともに元の呼び出しを再送信します。危険なツール呼び出しを参照してください。

異常検出は何を探していますか？

学習された曜日内時間ベースライン（14 日間）に対してスコアリングされるレート/ コストのスパイク、加えて retry_loop と novel_path（これまで一度も見られなかったツール間遷移）です。フィードは Member が読み取り可能；異常を最大 7 日間スヌーズできます。過剰なエージェンシーを参照してください。

4. MCP、キー、ゲートウェイアクセス

MCP サーバーはどう統制されますか？

サーバーを登録すると（name、endpoint、none/bearer/oauth/basic の auth_mode、暗号化されたクレデンシャル）、MCP ゲートウェイは mcp サーフェスでディスパッチ前にすべての tools/call を評価します。ヘルスが追跡され（ok/degraded/down）；POST /api/workspace/firewall/mcp_servers/:id/probe でプローブします。プローブはサーバーのアドバタイズされたツールスキーマもベースライン化します — 後のドリフトは、そのスキーマステータスを verified から changed （「rug-pull」シグナル）に切り替え、あなたは再ベースライン（承認）するか、サーバーを quarantine するかのどちらかです。つまりガバナンスは、呼び出しごとの評価プラス スキーマ整合性追跡とスキルリスクバンドです。ファイアウォール MCPと MCP ツールポイズニングを参照してください。

リスクのある、または自動検出されたスキルはどうなりますか？

各スキルは、allow / quarantine / block の強制モードを持つリスクバンドにスキャンされます。隔離されたスキルは承認のために保留されます；自動検出されたスキルは、人間がレビューするまで隔離されたままです。モードはルール判定の上に乗ります。

どのキーフィールドがエージェントをロックダウンしますか？

model_limits（+ model_limits_enabled）、allow_ips、credit_limit_usd （0 = 無制限）、expired_time（-1 = 期限なし）、environment、guardrail_id、 firewall_policy_id、そして is_firewall_gateway。最小エージェンシーのためにこれらを組み合わせてください — スコープ、キー、ポリシーを参照してください。キーは表示時にマスクされます。

なぜ `/api/v1/firewall/*` で 403 が出るのか？

それらのゲートウェイルート（POST /evaluate、POST /evaluate_plan、ANY /mcp）は、 is_firewall_gateway=true のキー — 専用のファイアウォールゲートウェイスコープのトークンであり、あなたの sk-orca-… リレーキーではない — を必要とします。それを発行し、その平文を読むのは Admin+ です。

設定することと呼び出すことの違いは何ですか？

設定はコンソールで実行されます — ガードレール、ファイアウォールポリシー、 MCP サーバー、コンプライアンスは、あなたのセッション/アクセストークン（UserAuth）の下で管理され、すべての書き込みはロールゲートされています（ポリシーとガードレールの書き込みは Developer+）。あなたの /v1/* リレートラフィックだけが sk-orca-… キーを使い；/api/v1/firewall/* ゲートウェイフックだけがファイアウォールゲートウェイスコープのトークンを使います。

5. コンプライアンス、レジデンシー、データ

どのフレームワークがカバーされていますか？

なぜインストール/レポートがゲートされているのか？

閲覧は無料です；パックのインストール、レポートの生成、本番化、レジデンシーの設定は、ワークスペース Admin と有料プランを必要とします（サーバーゲート）。パックのインストール（POST /api/compliance/packs/:key/install）は、その後編集できる実在のガードレール + ファイアウォールポリシーをマテリアライズします。

コンプライアンスレポートは検証可能ですか？

はい。レポートは Ed25519 署名 + SHA-256 で、公開検証可能です：公開鍵を取得し（GET /api/public/compliance/pubkey）、レポートを検証し（POST /api/public/compliance/verify）、あるいは監査人に共有リンクを手渡します（GET /api/public/compliance/share/:token）。エクスポートは CSV / JSON / PDF です。

データレジデンシーは実際に何をピン留めしますか？

それはコンプライアンスレポートアーティファクトのリージョン（us、eu、uk、 ap、cn、global）であり、PUT /api/compliance/residency（Admin）経由で設定可能です；クロスリージョンの読み取りは保留されます。それはあなたの推論データの地理的ピン留めではありません。責任分担を参照してください。

ログはどれくらい保持され、データを消去するには？

リクエストログの保持はデフォルトで 30 日で、180 日のハード最大値にサーバーでクランプされます。アカウント削除は、不可逆な PII スクラブが走る前に猶予ウィンドウ（デフォルト 30 日）保留されます；そのスクラブは、あなたに帰属する Mongo のリクエストログペイロード、ガードレールマッチ、ファイアウォールイベントをカスケードでパージします。ワークスペースのアーカイブは、そのワークスペースについて同じ 3 つのコレクションをカスケードでパージします。 PII 露出を参照してください。

セキュリティコントロールからの 400 は、あなたのプロンプトのバグではありません。 ポリシーが仕事をしているのです。リトライしないでください — これらのコードは skip-retry です。ルールをトレースし、それから呼び出しを修正するかポリシーを緩和するかを決めてください：なぜブロックされたのか？。

6. まだ詰まっていますか？

エラーコード

ゲートウェイが返しうるすべてのブロック、保留、拒否。

なぜブロックされたのか？

コードを読み、正しいフィードを開き、正確なルールを見つけます。

ガードレール API

コンテンツポリシーのためのルート、ロール、ペイロード。

ファイアウォール API

アクション統制のためのコンソールとゲートウェイのルート。

コンプライアンス API

カタログ、インストール、レポート、レジデンシーのエンドポイント。

用語集

ゼロトラストドキュメント全体で使われるすべての用語。

これらのコントロールが止める脅威については、脅威モデルから始めてください。クリーンなベースラインについては、 Secure Agents ベースラインに従ってください。

​1. AI エージェントセキュリティ FAQ — ここから始める

​2. ガードレール — コンテンツスクリーニング

​3. ファイアウォール — エージェントのアクション

​4. MCP、キー、ゲートウェイアクセス

​5. コンプライアンス、レジデンシー、データ

​6. まだ詰まっていますか？

エラーコード

なぜブロックされたのか？

ガードレール API

ファイアウォール API

コンプライアンス API

用語集

1. AI エージェントセキュリティ FAQ — ここから始める

2. ガードレール — コンテンツスクリーニング

3. ファイアウォール — エージェントのアクション

4. MCP、キー、ゲートウェイアクセス

5. コンプライアンス、レジデンシー、データ

6. まだ詰まっていますか？