金融グレードのエージェントコントロール

金融エージェントは台帳を照合し、返金を発行し、お金を動かし、カードとアカウントのデータを読みます。1 つの悪いツール呼び出しの爆発半径 — 暴走する返金ループ、台帳テーブルへの DROP、プロンプトに漏れるカード番号 — はドルと監査指摘で測られます。このレシピは、そのようなエージェントを安全に実行できるようにするコントロールを組み立てます：下限としての tight 自律性、money-moving ツールへの人間の承認、サーキットブレーカーとしての run ごとのコスト上限、そしてポリシーと監査人が求める署名済みエビデンスの両方を具現化するインストール可能な SOC 2 / PCI コンプライアンスパック。

ここにあるすべてはコンソール（Firewall → Posture / Policies、Guardrails、 Compliance）で設定されます。それらの管理ルートはリレーキーではなく、あなたのコンソールセッションを使います — sk-orca-… キーを運ぶのは、あなたのエージェントが行う /v1/* 呼び出しだけです。ポリシー編集には Developer ロールが必要です；コンプライアンスのインストール / go-live / residency にはワークスペース Admin と有料プランが必要です。

1. なぜセキュアな金融 AI エージェントはガードレール以上を必要とするのか

コンテンツスクリーニングはプロンプト内のカード番号を捕捉します。それは、エージェントが refund.issue を 1 万回呼び出すこと、内部の 10.x ホストに到達すること、あるいは破壊的マイグレーションを実行することを止めません。金融グレードの姿勢は、両方のプレーンを同時に統制しなければなりません：

テキストプレーン

ガードレールがリクエストとレスポンスのテキストをスクリーニング — PII はマスク、シークレットはブロック、モデルが見る前に。

アクションプレーン

ファイアウォールがすべてのツール呼び出し、MCP ディスパッチ、アウトバウンドリクエストを統制 — allow、audit、deny、sanitize、保留、またはコスト上限。

このレシピは 4 つのコントロールを互いの上に重ねます。2 つのプレーンがまだ明確でなければ、まずSecure Agents ベースラインとガードレール vs ファイアウォールを読んでください。

2. 下限：tight 自律性を適用する

最も強いワンスイッチの姿勢から始めます。Firewall → Posture で、tight 自律性レベルを適用します（Developer ロール）。ひとつのトランザクションで、両方のプレーンを設定します：

プレーン	`tight` が具現化するもの
ファイアウォール	デフォルト deny；破壊的シェルを deny；SSRF egress を deny（fetch 形のツール名）
ガードレール	リクエストに PII Shield + Secrets Blocker を強制

自律性スイッチは、実在の編集可能な autonomy_* ポリシーとガードレールの行を書き込みます — ブラックボックスではなく、シードです。監査スナップショットからのワンクリックの取り消しがあります。

money-moving エージェントでは、本番でいきなり tight に切り替えないでください。 **シャドウモード**で適用する（または balanced から始める）と、すべての強制判定が [shadow] would … という理由とともに audit に格下げされます。Firewall → Events / Runs を監視し、ポリシーが期待どおりに発火することを確認してから強制します。

3. 承認：money-moving ツールを人間のために保留する（HITL）

デフォルト deny は、許可しなかったものを止めます。あなたが許可するがお金を動かすツール — refund.issue、payment.send、ledger.adjust — は、自動許可も自動拒否もすべきではありません。それらに pending_approval 判定を与えて、人間が帯域外でサインオフするようにします。 Firewall → Policies で、デフォルトの上にルールを追加します：

Tool glob: refund.*（または payment.send、ledger.adjust、…）
Verdict: pending_approval

エージェントがそれを呼び出すとき：

保留された呼び出しは、承認 id とともに HTTP 400 firewall_approval_pending を返します；呼び出しはツールに到達しません。
レビュアーがそれを解決します — コンソールから（Developer+）、または POST /api/v1/firewall/approvals/:id/callback へのあなた自身の承認システムへの HMAC 署名付き webhook コールバック経由で。
エージェントが GET /api/v1/firewall/approvals/:id をポーリングし、それから単回使用の X-OrcaRouter-Firewall-Approval ヘッダーとともに元の呼び出しを再送信します — ゲートウェイはその一度だけ通します。

引数述語を固定して、大きな操作だけが人間を必要とするようにします：グロブ refund.issue を JSONPath 句 {"path":"$.amount_cents","op":"gt","value":50000}、判定 pending_approval で。小さな返金は流れ、$500 以上の返金はレビュアーを待ちます。完全な演算子セット（eq、contains、regex、in、cidr_match、gt、lt）についてはファイアウォールルールを参照。

4. サーキットブレーカー：run のコストに上限をかける

リトライループに詰まった金融エージェントは、正しさのバグであり、課金のバグでもあります。cap_cost ルールは暴走ループのブレーカーです：エージェント run の累積支出がルールごとのセント上限を超えたら、ツール呼び出しを deny します。判定 cap_cost と cap_cost_cents 上限を持つルールを追加します — 例：2000 （USD $20.00） — あなたのエージェントのツールにスコープして。run の進行中の支出が上限を超えると、その run のさらなる呼び出しは deny されます；新しい run はクリーンに始まります。

cap_cost はエージェント run の支出に上限をかけるのであり、単一のキーの生涯予算ではありません。キーへのハードな上限には、API キー自体に credit_limit_usd を設定します（0 = 無制限） — 両者は構成されます：キー予算が総支出を境界づけ、cap_cost が任意の 1 つの run を境界づけます。

5. テキストプレーンでのベルトとサスペンダー

tight は既に PII Shield と Secrets Blocker を強制します。金融エージェントには、具体的なものに頼ります：

リクエストからカード番号とシークレットをブロックする

Secrets Blocker ガードレールは、モデルが見る前にプロンプト内の API キーとクレデンシャルを捕捉します。カードデータには、credit_card を block アクション（エンティティごとの entity_actions 経由）に設定した pii ルールが、リクエストを HTTP 400 guardrail_blocked で完全に拒否します — そしてブロックはクォータを消費しません（入力ブロックはメータリングの前に発火します）。ガードレール §5を参照。

入ってくる途中で PII をマスクする

PII Shield プリセットは単一の pii ルール、mask、ステージ both です。入力ステージのマスキングはライブです：リクエスト内の iban や ssn は、モデルが呼び出される前に [IBAN] / [SSN] としてレンダリングされます。（ライブの出力/ ストリーミングマスキングはロードマップ上にあります；出力 block は今日ストリーミングと非ストリーミングで強制されます。）

引数をサニタイズし、結果は決して信頼しない

ファイアウォールの sanitize 判定は、転送前にツール呼び出しの引数からマッチした部分文字列をリダクトします — ツールが返すものは決して書き換えません。シークレットをリクエストから完全に締め出すのは、テキストプレーンの Secrets Blocker ガードレールの仕事です。

6. コンプライアンスパック：SOC 2 と PCI を 1 回のインストールで

上記のコントロールは実装です。監査人はエビデンスを求めます。Compliance プレーンがそのループを閉じます：フレームワークカタログをブラウズし（無料、任意の Member）、それから有料プランのワークスペース Admin としてパックをインストールします。パックのインストールは、フレームワークのコントロールにマッピングされるガードレールとファイアウォールポリシーを具現化します — つまり、監査アーティファクトを与える同じインストールが、実在の強制も立ち上げます。

# Console action (UserAuth session) — install the PCI DSS pack
POST /api/compliance/packs/pci_dss/install
# then, when you're ready to enforce:
POST /api/compliance/packs/pci_dss/golive

金融エージェントに関連する確認済みのパックには、soc2（AICPA SOC 2 Trust Services Criteria）、pci_dss（PCI DSS 4.0）、glba（Gramm-Leach-Bliley）、 dora_eu（Digital Operational Resilience Act）が含まれます — プライバシーフレームワーク（gdpr、uk_gdpr、ccpa）、セキュリティ/AI フレームワーク（iso_27001、iso_42001、nist_ai_rmf、eu_ai_act、nist_800_53）、そして owasp_llm（OWASP Top 10 for LLM Applications）パックと並んで。完全なセットはライブカタログをブラウズしてください。

監査人が検証できるレポート

何	詳細
署名	SHA-256 エビデンスハッシュ上の Ed25519 — 改ざん検出可能
フォーマット	CSV / JSON / PDF
検証	パブリック — `GET /api/public/compliance/pubkey`、`POST /api/public/compliance/verify`
共有	読み取り専用の監査人リンク：`GET /api/public/compliance/share/:token`

無料プランは 1 つのレポートを含みます；CSV/JSON エクスポートと追加レポートは有料です。レポートの生成と go-live は有料プランにサーバーゲートされています — カタログとレディネスビューは無料のままです。

7. データ residency、保持期間、消去

金融グレードの姿勢は、「エビデンスはどこにあり、ログをどれだけ保持するか」に答えなければなりません。

residency はコンプライアンスレポートアーティファクトの地域です — PUT /api/compliance/residency（Admin）経由で設定する us、eu、uk、ap、 cn、または global。地域横断的な読み取りは差し止められます。（これはアーティファクトを固定するものであり、推論が実行される場所ではありません。）
保持期間 — リクエストログはデフォルト 30 日で、180 日のハード最大値にサーバー側でクランプされます。
消去 — セルフサービスのアカウント削除は 30 日の猶予ウィンドウに入り、その後不可逆な PII スクラブがガードレールマッチ、リクエストログ、ファイアウォールイベントを通じてカスケードします。

すべてのポリシー、ルール、コンプライアンスの変更は監査行を書き込みます（ワークスペース + セントラル）。ガードレールとファイアウォールの変更はバージョン管理もされます — 任意のガードレールをその History タブから diff・revert できます。

8. 依存する前に検証する

金融ポリシーを信頼で出荷しないでください。両方のプレーンに、何も永続化せず、何もディスパッチしないサンドボックスがあります：

Guardrails → Test — サンプルを貼り付け、ステージを選び、判定とレンダリングされた（マスクされた）テキストを見ます。
Firewall → Test（Developer+） — サンプルのツール呼び出しをドライランし、判定、マッチしたルール、理由を見ます。

ライブになったら、Firewall → Events / Runs がすべての評価の run ごとの記録であり、 異常フィードは、ワークスペースの学習された曜日内時間ベースラインに対するレート/ コストのスパイク、retry_loop、そしてこれまで見たことのないツールパスをフラグします — まさに金融インシデントに先行するシグナルです。

まとめ

Secure Agents ベースライン

tight が何を具現化するか、そして適用前にシミュレートする方法。

ファイアウォールルール

引数述語、コスト上限、egress、シーケンスを深く。

SOC 2 エビデンス

具現化されたコントロールを署名済みの監査アーティファクトに変えます。

PII セーフなロギング

カードとアカウントのデータをリクエストログから締め出します。

強制モード

Observe → shadow → enforce、money-moving ツールのための安全なロールアウト。

危険なツール呼び出し

金融エージェントのツール許可リストが防御する脅威。

​1. なぜセキュアな金融 AI エージェントはガードレール以上を必要とするのか

テキストプレーン

アクションプレーン

​2. 下限：tight 自律性を適用する

​3. 承認：money-moving ツールを人間のために保留する（HITL）

​4. サーキットブレーカー：run のコストに上限をかける

​5. テキストプレーンでのベルトとサスペンダー

​6. コンプライアンスパック：SOC 2 と PCI を 1 回のインストールで

​監査人が検証できるレポート

​7. データ residency、保持期間、消去

​8. 依存する前に検証する

​まとめ

Secure Agents ベースライン

ファイアウォールルール

SOC 2 エビデンス

PII セーフなロギング

強制モード

危険なツール呼び出し

1. なぜセキュアな金融 AI エージェントはガードレール以上を必要とするのか

2. 下限：tight 自律性を適用する

3. 承認：money-moving ツールを人間のために保留する（HITL）

4. サーキットブレーカー：run のコストに上限をかける

5. テキストプレーンでのベルトとサスペンダー

6. コンプライアンスパック：SOC 2 と PCI を 1 回のインストールで

監査人が検証できるレポート

7. データ residency、保持期間、消去

8. 依存する前に検証する

まとめ