メインコンテンツへスキップ
コントロールページを読み終え、出荷する前に残った質問がひとつあります。これは AI エージェントセキュリティ FAQ — ゼロトラストセクション全体にまたがる横断的な 質問を、ひとつの場所で回答し、それぞれが深掘り用のリファレンスにリンクしています。 このセクションがまったく初めてなら、 AI エージェントのセキュリティコントロールスタックから始めてください; このページは、2 つの強制プレーン — ガードレール (プロンプト/レスポンスのテキスト)とファイアウォール (エージェントのアクション) — があることを知っていると仮定し、ただエッジを 固める必要があるだけと想定しています。

1. AI エージェントセキュリティ FAQ — ここから始める

どのコントロールがどの質問に答えるかの 30 秒のマップ:
あなたが尋ねていること…プレーン読む
プロンプトまたはレスポンス内のテキスト(PII、シークレット、jailbreak)ガードレールガードレール
ツール呼び出し、MCP、egress、スキルファイアウォールファイアウォール
400 でどちらが発火したかどちらかなぜブロックされたのか?
ホスト型ゲートウェイ上のすべてのセキュリティブロックは、マシン可読な code を伴う HTTP 400 です。まずコードを読んでください — それが正しいフィードへとあなたを フォークします。完全なテーブルは エラーコードにあります。

2. ガードレール — コンテンツスクリーニング

何も起きません。解決は:キーの明示的 guardrail_id(存在し有効である場合)→ それ以外はワークスペースの is_default ガードレール → それ以外は強制なし、です。 無効化された明示的アタッチメントはオフスイッチです — デフォルトにフォールバック しません。何も解決されなければ、リクエストはこの機能を一度も有効化していない ワークスペースとバイト単位で同一です。
いいえ。block アクションは 400 guardrail_blocked を返し、クォータを消費しません — 入力ステージのブロックはメータリングのに発火し;出力ステージのブロックは 事前消費されたクォータを返金します。また skip-retry とマークされています: 同一のプロンプトを再実行しても再びブロックされるだけです。
ルールタイプ:keywordregexpiimax_charsexternalllm_judgegrounding。アクション:block(拒否)、mask(リダクトして転送)、flag (ログのみ、トラフィック変更なし)。ステージ:inputoutputboth。それぞれに ついてはガードレールを参照してください。
組み込みエンティティには emailphonecredit_cardssnipibanmac_addressjwtaws_access_keyapi_key_openaibitcoin_address、加えて 地域タイプ(jp_mynumberkr_rrncn_resident_id)が含まれます。mask アクションは型付きタグをレンダリングします — jane@acme.com[EMAIL]、SSN → [SSN]。ルールごとに最大 25 個のカスタム正規表現エンティティ(オプションの Luhn チェックサムつき)を重ね、entity_actions 経由でエンティティごとにアクションを オーバーライドできます。
出力 block は両方の方法で強制されます — 非ストリーミングレスポンスは返る前に スクリーニングされ、ストリーミングスキャナはストリームを途中で切ります。出力 mask は現在、非ストリーミングのみです;ストリーミングレスポンスでは、チャンクは マスクされずに通り過ぎます(帯域内のストリーム書き換えはロードマップ上にあります)。 入力ステージのマスキング — モデルが見る前にリクエストをサニタイズする — は、いずれに せよライブです。PII Shield プリセットは、今日入力ステージでマスクします。
keyword / regex / pii / max_chars ルールはモデル呼び出しをせず、何も課金 しません。llm_judge ルールは、ワークスペースモデルを通じてセマンティックチェックを 実行し(judge_timeout_ms で制限され、デフォルトはフェイルオープン)、別の ジャッジサブラインとして課金されます。grounding ルールは、同じ方法で、 リクエストの取得されたソースに対して回答の忠実性をスコアリングします(しきい値の デフォルトは 0.7)。
Matches フィードを開きます(GET /api/guardrail/match、Member)。各行は、 ルールタイプ、アクション、ステージ、詳細文字列を記録します — そして、そのガード レールで “Log raw content” がオンの場合のみ、マッチした部分文字列を記録 します(デフォルトはオフ、プライバシー保守的な姿勢)。誤ったブロック? 誤検知として マークします(POST /api/guardrail/match/:id/mark-fp、Admin)。
ガードレールは、テキストをブロックもマスクもせずに、プロンプトをコードセキュリティ アドバイザリ(例:参照されたパッケージ上の CVE/SBOM ノート)でデコレートできます。 これは、リクエストを拒否するのではなく拡張するアノテーション層です — あなたが直接 オーサリングする block / mask / flag アクションとは区別されます。それを駆動する には、Integrations 下でスキャナを接続してください。

3. ファイアウォール — エージェントのアクション

ひとつの重要な違い:無効化されたアタッチ済みファイアウォールポリシーはワーク スペースデフォルトにフォールバックしますが、無効化されたアタッチ済みガードレールは なしに解決します。それ以外では、両方ともキー (firewall_policy_id / guardrail_id)経由でアタッチし、ワークスペースデフォルトの フォールバックを共有します。 ガードレール vs ファイアウォールを 参照してください。
判定:allowauditdenysanitizepending_approvalcap_costdefault_verdictallow / audit / deny(デフォルトは audit)。サーフェス: inbound(アドバタイズされたツール)、response(モデルが発行する tool_calls)、 mcptools/call)、egress(アウトバウンド host/IP/CIDR)。 判定用語集が各々を解読します。
いいえ — そしてこれが一般的な誤解です。sanitize 判定は、ツール呼び出しの引数 からマッチした部分文字列のみをリダクトし、ツールが返すコンテンツは決して触りません。 inbound サーフェス(まだ呼び出し時の引数なし)では、sanitize は deny に エスカレートします。
ひとつのスイッチが、実在する編集可能な autonomy_* 行を書き込んで、あなたの姿勢 全体を設定します:
balanced(推奨される開始) — デフォルト audit、破壊的シェルを deny、 PII Shield は audit のみ(PII をフラグ)。
tight — デフォルト deny、破壊的シェルを deny、SSRF 形状のフェッチツールを deny、PII Shield + Secrets Blocker を強制。
permissive — 観察のみ。
ワンクリック取り消しは、適用が書き込んだ監査スナップショットから直前の状態を復元 します。それは単一のステップです — 後の適用(または手動のポリシー編集)がその スナップショットを上書きすると、取り消しは利用できなくなります。 強制モードを参照してください。
プリセットではしません。tight 自律性の SSRF プリセットは、一般的なフェッチ形状の ツール名http_fetchweb_searchfetch_urlrequest)を deny します。宛先で deny するには — RFC-1918 範囲、クラウドメタデータ IP、特定の CIDR — 自分自身の egress サーフェスの host/CIDR deny ルールをオーサリングしてください。CIDR ルールを 出荷するプリセットはありません。 Egress とデータ持ち出しを参照してください。
シャドウモードをオン(ポリシーごと)にします:ポリシーは評価しログを取りますが、 すべての強制判定を audit に格下げし、理由に [shadow] would … を前置します。 EventsRuns ビューを監視し、それからシャドウをオフにして強制します。 ワークスペースレベルの観察モードfirewall_observe_mode)は、補完的な発見の ダイヤルです — カバーされていない呼び出しを Discovered Tools でギャップとして ログします。
pending_approval 判定は、承認 id とともに 400 firewall_approval_pending を 返します。レビュアーがコンソールから(Developer+)または HMAC webhook コール バック(POST /api/v1/firewall/approvals/:id/callback)経由でそれを解決します。 エージェントは GET /api/v1/firewall/approvals/:id をポーリングし、単回使用の X-OrcaRouter-Firewall-Approval ヘッダーとともに元の呼び出しを再送信します。 危険なツール呼び出しを参照してください。
学習された曜日内時間ベースライン(14 日間)に対してスコアリングされるレート/ コストのスパイク、加えて retry_loopnovel_path(これまで一度も見られなかった ツール間遷移)です。フィードは Member が読み取り可能;異常を最大 7 日間スヌーズ できます。過剰なエージェンシーを参照してください。

4. MCP、キー、ゲートウェイアクセス

サーバーを登録すると(nameendpointnone/bearer/oauth/basicauth_mode、暗号化されたクレデンシャル)、MCP ゲートウェイは mcp サーフェスで ディスパッチ前にすべての tools/call を評価します。ヘルスが追跡され (ok/degraded/down);POST /api/workspace/firewall/mcp_servers/:id/probe で プローブします。プローブはサーバーのアドバタイズされたツールスキーマもベースライン 化します — 後のドリフトは、そのスキーマステータスを verified から changed (「rug-pull」シグナル)に切り替え、あなたは再ベースライン(承認)するか、サーバーを quarantine するかのどちらかです。つまりガバナンスは、呼び出しごとの評価プラス スキーマ整合性追跡とスキルリスクバンドです。ファイアウォール MCPMCP ツールポイズニングを参照してください。
スキルは、allow / quarantine / block の強制 モードを持つリスクバンドにスキャンされます。隔離されたスキルは承認のために 保留されます;自動検出されたスキルは、人間がレビューするまで隔離されたままです。 モードはルール判定の上に乗ります。
model_limits(+ model_limits_enabled)、allow_ipscredit_limit_usd0 = 無制限)、expired_time-1 = 期限なし)、environmentguardrail_idfirewall_policy_id、そして is_firewall_gateway最小エージェンシーのために これらを組み合わせてください — スコープ、キー、ポリシーを 参照してください。キーは表示時にマスクされます。
それらのゲートウェイルート(POST /evaluatePOST /evaluate_planANY /mcp)は、 is_firewall_gateway=true のキー — 専用のファイアウォールゲートウェイスコープの トークンであり、あなたの sk-orca-… リレーキーではない — を必要とします。それを 発行し、その平文を読むのは Admin+ です。
設定はコンソールで実行されます — ガードレール、ファイアウォールポリシー、 MCP サーバー、コンプライアンスは、あなたのセッション/アクセストークン(UserAuth)の 下で管理され、すべての書き込みはロールゲートされています(ポリシーとガードレールの 書き込みは Developer+)。あなたの /v1/* リレートラフィックだけが sk-orca-… キーを 使い;/api/v1/firewall/* ゲートウェイフックだけがファイアウォールゲートウェイ スコープのトークンを使います。

5. コンプライアンス、レジデンシー、データ

カタログには SOC 2、HIPAA、GDPR、UK GDPR、EU AI Act、ISO 27001、ISO 42001、 NIST AI RMF、PCI DSS、CCPA、GLBA、OWASP Top 10 for LLM Applications(コントロール マッピングとして)、加えて地域プロファイル(PIPL、APPI、PIPA、LGPD、PIPEDA、DPDP、 オーストラリアの APP、シンガポール PDPA、DORA、そしていくつかの米国州法)が含まれます。 カタログ、パック、レディネスを — すべて Member、無料/api/compliance/* で 閲覧してください。
閲覧は無料です;パックのインストール、レポートの生成、本番化、レジデンシーの設定は、 ワークスペース Admin と有料プランを必要とします(サーバーゲート)。パックの インストール(POST /api/compliance/packs/:key/install)は、その後編集できる実在の ガードレール + ファイアウォールポリシーをマテリアライズします。
はい。レポートは Ed25519 署名 + SHA-256 で、公開検証可能です:公開鍵を取得し (GET /api/public/compliance/pubkey)、レポートを検証し (POST /api/public/compliance/verify)、あるいは監査人に共有リンクを手渡します (GET /api/public/compliance/share/:token)。エクスポートは CSV / JSON / PDF です。
それはコンプライアンスレポートアーティファクトのリージョンuseuukapcnglobal)であり、PUT /api/compliance/residency(Admin)経由で設定可能 です;クロスリージョンの読み取りは保留されます。それはあなたの推論データの地理的 ピン留めではありません責任分担を参照してください。
リクエストログの保持はデフォルトで 30 日で、180 日のハード最大値にサーバーで クランプされます。アカウント削除は、不可逆な PII スクラブが走る前に猶予ウィンドウ (デフォルト 30 日)保留されます;そのスクラブは、あなたに帰属する Mongo の リクエストログペイロード、ガードレールマッチ、ファイアウォールイベントをカスケードで パージします。ワークスペースのアーカイブは、そのワークスペースについて同じ 3 つの コレクションをカスケードでパージします。 PII 露出を参照してください。
セキュリティコントロールからの 400 は、あなたのプロンプトのバグではありません。 ポリシーが仕事をしているのです。リトライしないでください — これらのコードは skip-retry です。ルールをトレースし、それから呼び出しを修正するかポリシーを緩和するかを決めて ください:なぜブロックされたのか?

6. まだ詰まっていますか?

エラーコード

ゲートウェイが返しうるすべてのブロック、保留、拒否。

なぜブロックされたのか?

コードを読み、正しいフィードを開き、正確なルールを見つけます。

ガードレール API

コンテンツポリシーのためのルート、ロール、ペイロード。

ファイアウォール API

アクション統制のためのコンソールとゲートウェイのルート。

コンプライアンス API

カタログ、インストール、レポート、レジデンシーのエンドポイント。

用語集

ゼロトラストドキュメント全体で使われるすべての用語。
これらのコントロールが止める脅威については、 脅威モデルから始めてください。クリーンな ベースラインについては、 Secure Agents ベースラインに従ってください。