1. AI エージェントセキュリティ FAQ — ここから始める
どのコントロールがどの質問に答えるかの 30 秒のマップ:| あなたが尋ねていること… | プレーン | 読む |
|---|---|---|
| プロンプトまたはレスポンス内のテキスト(PII、シークレット、jailbreak) | ガードレール | ガードレール |
| ツール呼び出し、MCP、egress、スキル | ファイアウォール | ファイアウォール |
400 でどちらが発火したか | どちらか | なぜブロックされたのか? |
2. ガードレール — コンテンツスクリーニング
リクエストでガードレールが解決しなかった場合はどうなる?
リクエストでガードレールが解決しなかった場合はどうなる?
guardrail_id(存在し有効である場合)→
それ以外はワークスペースの is_default ガードレール → それ以外は強制なし、です。
無効化された明示的アタッチメントはオフスイッチです — デフォルトにフォールバック
しません。何も解決されなければ、リクエストはこの機能を一度も有効化していない
ワークスペースとバイト単位で同一です。ブロックされたリクエストはクォータを消費しますか?
ブロックされたリクエストはクォータを消費しますか?
block アクションは 400 guardrail_blocked を返し、クォータを消費しません
— 入力ステージのブロックはメータリングの前に発火し;出力ステージのブロックは
事前消費されたクォータを返金します。また skip-retry とマークされています:
同一のプロンプトを再実行しても再びブロックされるだけです。どんなルールタイプとアクションがありますか?
どんなルールタイプとアクションがありますか?
keyword、regex、pii、max_chars、external、llm_judge、
grounding。アクション:block(拒否)、mask(リダクトして転送)、flag
(ログのみ、トラフィック変更なし)。ステージ:input、output、both。それぞれに
ついてはガードレールを参照してください。どの PII エンティティが検出され、マスクはどう見えますか?
どの PII エンティティが検出され、マスクはどう見えますか?
email、phone、credit_card、ssn、ip、iban、
mac_address、jwt、aws_access_key、api_key_openai、bitcoin_address、加えて
地域タイプ(jp_mynumber、kr_rrn、cn_resident_id)が含まれます。mask
アクションは型付きタグをレンダリングします — jane@acme.com → [EMAIL]、SSN →
[SSN]。ルールごとに最大 25 個のカスタム正規表現エンティティ(オプションの Luhn
チェックサムつき)を重ね、entity_actions 経由でエンティティごとにアクションを
オーバーライドできます。出力マスキングはストリーミングレスポンスで強制されますか?
出力マスキングはストリーミングレスポンスで強制されますか?
LLM ジャッジのコストは?
LLM ジャッジのコストは?
keyword / regex / pii / max_chars ルールはモデル呼び出しをせず、何も課金
しません。llm_judge ルールは、ワークスペースモデルを通じてセマンティックチェックを
実行し(judge_timeout_ms で制限され、デフォルトはフェイルオープン)、別の
ジャッジサブラインとして課金されます。grounding ルールは、同じ方法で、
リクエストの取得されたソースに対して回答の忠実性をスコアリングします(しきい値の
デフォルトは 0.7)。ルールが実際に何にマッチしたかを見られますか?
ルールが実際に何にマッチしたかを見られますか?
GET /api/guardrail/match、Member)。各行は、
ルールタイプ、アクション、ステージ、詳細文字列を記録します — そして、そのガード
レールで “Log raw content” がオンの場合のみ、マッチした部分文字列を記録
します(デフォルトはオフ、プライバシー保守的な姿勢)。誤ったブロック? 誤検知として
マークします(POST /api/guardrail/match/:id/mark-fp、Admin)。既知の CVE について依存関係をスキャンしますか?
既知の CVE について依存関係をスキャンしますか?
block / mask / flag アクションとは区別されます。それを駆動する
には、Integrations 下でスキャナを接続してください。3. ファイアウォール — エージェントのアクション
ファイアウォールは解決においてガードレールとどう異なりますか?
ファイアウォールは解決においてガードレールとどう異なりますか?
firewall_policy_id / guardrail_id)経由でアタッチし、ワークスペースデフォルトの
フォールバックを共有します。
ガードレール vs ファイアウォールを
参照してください。判定とサーフェスは何ですか?
判定とサーフェスは何ですか?
allow、audit、deny、sanitize、pending_approval、cap_cost。
default_verdict は allow / audit / deny(デフォルトは audit)。サーフェス:
inbound(アドバタイズされたツール)、response(モデルが発行する tool_calls)、
mcp(tools/call)、egress(アウトバウンド host/IP/CIDR)。
判定用語集が各々を解読します。`sanitize` はツールが返すものをクリーンアップしますか?
`sanitize` はツールが返すものをクリーンアップしますか?
sanitize 判定は、ツール呼び出しの引数
からマッチした部分文字列のみをリダクトし、ツールが返すコンテンツは決して触りません。
inbound サーフェス(まだ呼び出し時の引数なし)では、sanitize は deny に
エスカレートします。自律性レベルは何をしますか?
自律性レベルは何をしますか?
autonomy_* 行を書き込んで、あなたの姿勢
全体を設定します:•
balanced(推奨される開始) — デフォルト audit、破壊的シェルを deny、
PII Shield は audit のみ(PII をフラグ)。•
tight — デフォルト deny、破壊的シェルを deny、SSRF 形状のフェッチツールを
deny、PII Shield + Secrets Blocker を強制。•
permissive — 観察のみ。ワンクリック取り消しは、適用が書き込んだ監査スナップショットから直前の状態を復元 します。それは単一のステップです — 後の適用(または手動のポリシー編集)がその スナップショットを上書きすると、取り消しは利用できなくなります。 強制モードを参照してください。
SSRF プリセットはプライベート IP とクラウドメタデータをブロックしますか?
SSRF プリセットはプライベート IP とクラウドメタデータをブロックしますか?
tight 自律性の SSRF プリセットは、一般的なフェッチ形状の
ツール名(http_fetch、web_search、fetch_url、request)を deny します。宛先で
deny するには — RFC-1918 範囲、クラウドメタデータ IP、特定の CIDR — 自分自身の
egress サーフェスの host/CIDR deny ルールをオーサリングしてください。CIDR ルールを
出荷するプリセットはありません。
Egress とデータ持ち出しを参照してください。トラフィックを壊さずにポリシーをロールアウトするには?
トラフィックを壊さずにポリシーをロールアウトするには?
audit に格下げし、理由に [shadow] would … を前置します。
Events と Runs ビューを監視し、それからシャドウをオフにして強制します。
ワークスペースレベルの観察モード(firewall_observe_mode)は、補完的な発見の
ダイヤルです — カバーされていない呼び出しを Discovered Tools でギャップとして
ログします。人間による承認(HITL)はどう機能しますか?
人間による承認(HITL)はどう機能しますか?
pending_approval 判定は、承認 id とともに 400 firewall_approval_pending を
返します。レビュアーがコンソールから(Developer+)または HMAC webhook コール
バック(POST /api/v1/firewall/approvals/:id/callback)経由でそれを解決します。
エージェントは GET /api/v1/firewall/approvals/:id をポーリングし、単回使用の
X-OrcaRouter-Firewall-Approval ヘッダーとともに元の呼び出しを再送信します。
危険なツール呼び出しを参照してください。異常検出は何を探していますか?
異常検出は何を探していますか?
retry_loop と novel_path(これまで一度も見られなかった
ツール間遷移)です。フィードは Member が読み取り可能;異常を最大 7 日間スヌーズ
できます。過剰なエージェンシーを参照してください。4. MCP、キー、ゲートウェイアクセス
MCP サーバーはどう統制されますか?
MCP サーバーはどう統制されますか?
name、endpoint、none/bearer/oauth/basic の
auth_mode、暗号化されたクレデンシャル)、MCP ゲートウェイは mcp サーフェスで
ディスパッチ前にすべての tools/call を評価します。ヘルスが追跡され
(ok/degraded/down);POST /api/workspace/firewall/mcp_servers/:id/probe で
プローブします。プローブはサーバーのアドバタイズされたツールスキーマもベースライン
化します — 後のドリフトは、そのスキーマステータスを verified から changed
(「rug-pull」シグナル)に切り替え、あなたは再ベースライン(承認)するか、サーバーを
quarantine するかのどちらかです。つまりガバナンスは、呼び出しごとの評価プラス
スキーマ整合性追跡とスキルリスクバンドです。ファイアウォール MCPと
MCP ツールポイズニングを参照してください。リスクのある、または自動検出されたスキルはどうなりますか?
リスクのある、または自動検出されたスキルはどうなりますか?
allow / quarantine / block の強制
モードを持つリスクバンドにスキャンされます。隔離されたスキルは承認のために
保留されます;自動検出されたスキルは、人間がレビューするまで隔離されたままです。
モードはルール判定の上に乗ります。どのキーフィールドがエージェントをロックダウンしますか?
どのキーフィールドがエージェントをロックダウンしますか?
model_limits(+ model_limits_enabled)、allow_ips、credit_limit_usd
(0 = 無制限)、expired_time(-1 = 期限なし)、environment、guardrail_id、
firewall_policy_id、そして is_firewall_gateway。最小エージェンシーのために
これらを組み合わせてください —
スコープ、キー、ポリシーを
参照してください。キーは表示時にマスクされます。なぜ `/api/v1/firewall/*` で 403 が出るのか?
なぜ `/api/v1/firewall/*` で 403 が出るのか?
POST /evaluate、POST /evaluate_plan、ANY /mcp)は、
is_firewall_gateway=true のキー — 専用のファイアウォールゲートウェイスコープの
トークンであり、あなたの sk-orca-… リレーキーではない — を必要とします。それを
発行し、その平文を読むのは Admin+ です。設定することと呼び出すことの違いは何ですか?
設定することと呼び出すことの違いは何ですか?
/v1/* リレートラフィックだけが sk-orca-… キーを
使い;/api/v1/firewall/* ゲートウェイフックだけがファイアウォールゲートウェイ
スコープのトークンを使います。5. コンプライアンス、レジデンシー、データ
どのフレームワークがカバーされていますか?
どのフレームワークがカバーされていますか?
/api/compliance/* で
閲覧してください。なぜインストール/レポートがゲートされているのか?
なぜインストール/レポートがゲートされているのか?
POST /api/compliance/packs/:key/install)は、その後編集できる実在の
ガードレール + ファイアウォールポリシーをマテリアライズします。コンプライアンスレポートは検証可能ですか?
コンプライアンスレポートは検証可能ですか?
データレジデンシーは実際に何をピン留めしますか?
データレジデンシーは実際に何をピン留めしますか?
us、eu、uk、
ap、cn、global)であり、PUT /api/compliance/residency(Admin)経由で設定可能
です;クロスリージョンの読み取りは保留されます。それはあなたの推論データの地理的
ピン留めではありません。
責任分担を参照してください。ログはどれくらい保持され、データを消去するには?
ログはどれくらい保持され、データを消去するには?
