DROP、プロンプトに漏れるカード番号 — はドルと監査指摘で測られます。
このレシピは、そのようなエージェントを安全に実行できるようにするコントロールを組み立て
ます:下限としての tight 自律性、money-moving ツールへの人間の承認、サーキット
ブレーカーとしての run ごとのコスト上限、そしてポリシーと監査人が求める署名済み
エビデンスの両方を具現化するインストール可能な SOC 2 / PCI コンプライアンスパック。
ここにあるすべてはコンソール(Firewall → Posture / Policies、Guardrails、
Compliance)で設定されます。それらの管理ルートはリレーキーではなく、あなたのコンソール
セッションを使います —
sk-orca-… キーを運ぶのは、あなたのエージェントが行う /v1/*
呼び出しだけです。ポリシー編集には Developer ロールが必要です;コンプライアンスの
インストール / go-live / residency にはワークスペース Admin と有料プランが
必要です。1. なぜセキュアな金融 AI エージェントはガードレール以上を必要とするのか
コンテンツスクリーニングはプロンプト内のカード番号を捕捉します。それは、エージェントがrefund.issue を 1 万回呼び出すこと、内部の 10.x ホストに到達すること、あるいは
破壊的マイグレーションを実行することを止めません。金融グレードの姿勢は、両方の
プレーンを同時に統制しなければなりません:
テキストプレーン
ガードレールがリクエストとレスポンスのテキストを
スクリーニング — PII はマスク、シークレットはブロック、モデルが見る前に。
アクションプレーン
ファイアウォールがすべてのツール呼び出し、MCP ディスパッチ、
アウトバウンドリクエストを統制 — allow、audit、deny、sanitize、保留、または
コスト上限。
2. 下限:tight 自律性を適用する
最も強いワンスイッチの姿勢から始めます。Firewall → Posture で、tight
自律性レベルを適用します(Developer
ロール)。ひとつのトランザクションで、両方のプレーンを設定します:
| プレーン | tight が具現化するもの |
|---|---|
| ファイアウォール | デフォルト deny;破壊的シェルを deny;SSRF egress を deny(fetch 形のツール名) |
| ガードレール | リクエストに PII Shield + Secrets Blocker を強制 |
autonomy_* ポリシーとガードレールの行を
書き込みます — ブラックボックスではなく、シードです。監査スナップショットからの
ワンクリックの取り消しがあります。
3. 承認:money-moving ツールを人間のために保留する(HITL)
デフォルト deny は、許可しなかったものを止めます。あなたが許可するがお金を動かす ツール —refund.issue、payment.send、ledger.adjust — は、自動許可も自動拒否も
すべきではありません。それらに pending_approval 判定を与えて、人間が帯域外でサインオフ
するようにします。
Firewall → Policies で、デフォルトの上にルールを追加します:
- Tool glob:
refund.*(またはpayment.send、ledger.adjust、…) - Verdict:
pending_approval
- 保留された呼び出しは、承認 id とともに HTTP 400
firewall_approval_pendingを 返します;呼び出しはツールに到達しません。 - レビュアーがそれを解決します — コンソールから(Developer+)、または
POST /api/v1/firewall/approvals/:id/callbackへのあなた自身の承認システムへの HMAC 署名付き webhook コールバック経由で。 - エージェントが
GET /api/v1/firewall/approvals/:idをポーリングし、それから 単回使用のX-OrcaRouter-Firewall-Approvalヘッダーとともに元の呼び出しを再送信 します — ゲートウェイはその一度だけ通します。
4. サーキットブレーカー:run のコストに上限をかける
リトライループに詰まった金融エージェントは、正しさのバグであり、課金のバグでも あります。cap_cost ルールは暴走ループのブレーカーです:エージェント run の累積支出が
ルールごとのセント上限を超えたら、ツール呼び出しを deny します。
判定 cap_cost と cap_cost_cents 上限を持つルールを追加します — 例:2000
(USD $20.00) — あなたのエージェントのツールにスコープして。run の進行中の支出が上限を
超えると、その run のさらなる呼び出しは deny されます;新しい run はクリーンに始まります。
cap_cost はエージェント run の支出に上限をかけるのであり、単一のキーの生涯予算
ではありません。キーへのハードな上限には、API キー自体に credit_limit_usd を
設定します(0 = 無制限) — 両者は構成されます:キー予算が総支出を境界づけ、cap_cost
が任意の 1 つの run を境界づけます。5. テキストプレーンでのベルトとサスペンダー
tight は既に PII Shield と Secrets Blocker を強制します。金融エージェントには、
具体的なものに頼ります:
リクエストからカード番号とシークレットをブロックする
リクエストからカード番号とシークレットをブロックする
Secrets Blocker ガードレールは、モデルが見る前にプロンプト内の API キーと
クレデンシャルを捕捉します。カードデータには、
credit_card を block アクション
(エンティティごとの entity_actions 経由)に設定した pii ルールが、リクエストを
HTTP 400 guardrail_blocked で完全に拒否します — そしてブロックはクォータを
消費しません(入力ブロックはメータリングの前に発火します)。
ガードレール §5を参照。入ってくる途中で PII をマスクする
入ってくる途中で PII をマスクする
PII Shield プリセットは単一の
pii ルール、mask、ステージ both です。
入力ステージのマスキングはライブです:リクエスト内の iban や ssn は、モデルが
呼び出される前に [IBAN] / [SSN] としてレンダリングされます。(ライブの出力/
ストリーミングマスキングはロードマップ上にあります;出力 block は今日
ストリーミングと非ストリーミングで強制されます。)引数をサニタイズし、結果は決して信頼しない
引数をサニタイズし、結果は決して信頼しない
ファイアウォールの
sanitize 判定は、転送前にツール呼び出しの引数から
マッチした部分文字列をリダクトします — ツールが返すものは決して書き換えません。
シークレットをリクエストから完全に締め出すのは、テキストプレーンの Secrets Blocker
ガードレールの仕事です。6. コンプライアンスパック:SOC 2 と PCI を 1 回のインストールで
上記のコントロールは実装です。監査人はエビデンスを求めます。Compliance プレーンがそのループを閉じます:フレームワークカタログをブラウズし(無料、任意の Member)、それから有料プランのワークスペース Admin としてパックをインストール します。 パックのインストールは、フレームワークのコントロールにマッピングされるガードレールと ファイアウォールポリシーを具現化します — つまり、監査アーティファクトを与える同じ インストールが、実在の強制も立ち上げます。soc2(AICPA SOC 2 Trust
Services Criteria)、pci_dss(PCI DSS 4.0)、glba(Gramm-Leach-Bliley)、
dora_eu(Digital Operational Resilience Act)が含まれます — プライバシー
フレームワーク(gdpr、uk_gdpr、ccpa)、セキュリティ/AI フレームワーク
(iso_27001、iso_42001、nist_ai_rmf、eu_ai_act、nist_800_53)、そして
owasp_llm(OWASP Top 10 for LLM Applications)パックと並んで。完全なセットは
ライブカタログをブラウズしてください。
監査人が検証できるレポート
| 何 | 詳細 |
|---|---|
| 署名 | SHA-256 エビデンスハッシュ上の Ed25519 — 改ざん検出可能 |
| フォーマット | CSV / JSON / PDF |
| 検証 | パブリック — GET /api/public/compliance/pubkey、POST /api/public/compliance/verify |
| 共有 | 読み取り専用の監査人リンク:GET /api/public/compliance/share/:token |
無料プランは 1 つのレポートを含みます;CSV/JSON エクスポートと追加レポートは有料です。
レポートの生成と go-live は有料プランにサーバーゲートされています — カタログとレディネス
ビューは無料のままです。
7. データ residency、保持期間、消去
金融グレードの姿勢は、「エビデンスはどこにあり、ログをどれだけ保持するか」に答えなければ なりません。- residency はコンプライアンスレポートアーティファクトの地域です —
PUT /api/compliance/residency(Admin)経由で設定するus、eu、uk、ap、cn、またはglobal。地域横断的な読み取りは差し止められます。(これはアーティファクトを 固定するものであり、推論が実行される場所ではありません。) - 保持期間 — リクエストログはデフォルト 30 日で、180 日のハード最大値に サーバー側でクランプされます。
- 消去 — セルフサービスのアカウント削除は 30 日の猶予ウィンドウに入り、その後 不可逆な PII スクラブがガードレールマッチ、リクエストログ、ファイアウォール イベントを通じてカスケードします。
8. 依存する前に検証する
金融ポリシーを信頼で出荷しないでください。両方のプレーンに、何も永続化せず、何も ディスパッチしないサンドボックスがあります:- Guardrails → Test — サンプルを貼り付け、ステージを選び、判定とレンダリングされた (マスクされた)テキストを見ます。
- Firewall → Test(Developer+) — サンプルのツール呼び出しをドライランし、 判定、マッチしたルール、理由を見ます。
retry_loop、そしてこれまで見たことのないツールパスをフラグします —
まさに金融インシデントに先行するシグナルです。
まとめ
Secure Agents ベースライン
tight が何を具現化するか、そして適用前にシミュレートする方法。ファイアウォールルール
引数述語、コスト上限、egress、シーケンスを深く。
SOC 2 エビデンス
具現化されたコントロールを署名済みの監査アーティファクトに変えます。
PII セーフなロギング
カードとアカウントのデータをリクエストログから締め出します。
強制モード
Observe → shadow → enforce、money-moving ツールのための安全なロールアウト。
危険なツール呼び出し
金融エージェントのツール許可リストが防御する脅威。
