帰属とフォレンジックの欠如

エージェントで何かがうまくいかないとき、最初の質問は常に同じです：それは実際に何をしたのか、そしてそれを許したポリシーを誰が変えたのか？ 証跡がなければ、どちらにも答えられません。当該日にコントロールが有効だったことを監査人に示せず、本物の攻撃をノイズの多い誤検知と区別できず、行を漏らした実行を再構築できません。 OrcaRouter は、進行しながら答えを記録します。スクリーニングされたすべてのプロンプト、すべてのツール呼び出し、すべての承認、すべてのポリシー編集が、それを生み出したエージェント実行とセッションに相関付けられた、ワークスペーススコープのクエリ可能なレコードに残ります。このページは、そのレコードを AI エージェント監査証跡として使う方法を示します：単一の容疑実行から、監査人に手渡す署名されたレポートまで。

ここにあるすべてはワークスペーススコープです。Member は自身のワークスペースの証跡を見ます；何もテナント境界を越えません。証跡は、あなたがすでに設定する機能 — ガードレールとファイアウォール — によって生成されるため、強制をオンにすると同時にフォレンジックがオンになります。

1. AI エージェント監査証跡の背後にある 4 つのレコード

帰属は 4 つの独立したストリームから来ます。それぞれが同じ実行とセッションに相関付けられているため、それらの間をピボットできます：

ガードレール Matches

リクエストまたはレスポンスで発火したすべてのコンテンツルール — ルール型、アクション、ステージ、詳細文字列。Member が読めます。

ファイアウォール Events & Runs

すべてのツール呼び出し判定 — allow、audit、deny、sanitize、 pending_approval（承認のための保留）、そして cap_cost ルールの解決された判定 — エージェント実行とセッションでロールアップ。Developer+。

承認決定

保留された各ツール呼び出しを誰が承認または拒否したか、監査アクションとして記録。

ポリシー変更履歴

すべてのガードレールとファイアウォールの編集 — バージョン管理、差分可能、復帰可能 — に加えて変更ごとのワークスペース監査行。

結合組織はエージェント実行とセッション id です。同じ会話からのガードレールマッチとファイアウォールイベントは同じ実行系統を運ぶため、「この実行はメールをマスクし、それから私たちが deny したフェッチを試み、それから書き込みを承認された」が、3 つの切り離されたログではなく 1 つのストーリーとして読めます。

2. ガードレール Matches — 何がスクリーニングされたか（Member）

ガードレールルールが発火するたびに、ゲートウェイはマッチを書きます。フィードは Guardrails ページ（Matches タブ）に存在し、任意のワークスペースメンバーが読めます。各マッチは、ルール型、取られたアクション（block / mask / flag / annotate / spotlight）、ステージ（input / output）、詳細文字列、そしてそれをトリガーしたリクエストの実行系統を記録します。それを一覧化し、ガードレールやルール型でグループ化し、アクションでフィルタし、1 つのマッチにドリルダウンし、フィードを CSV にエクスポートできます。

マッチした部分文字列（実際のメール、SSN）は、ガードレールの Log raw content トグルがオンのときだけ記録されます — そしてそれはデフォルトでオフ、プライバシー保守的な姿勢です。オフのとき、ルールが発火したことと詳細メタ文字列は得られますが、生の値は得られません。トリアージのために部分文字列が必要なときはガードレールごとにオンにしてください；この設定は遡及しません。

ノイズの多いルールも証跡の一部です。POST /api/guardrail/match/:id/mark-fp（Admin）でマッチを誤検知としてマークし、シグナルをクリーンに保ち、レポートが過大カウントしないようにします。

3. ファイアウォール Events & Runs — エージェントが何をしたか（Developer+）

Matches がテキストをカバーする一方、ファイアウォール Events はアクションをカバーします。すべてのツール呼び出し評価が、その判定、サーフェス、ツール名、そして — 決定的に — それが属するエージェント実行とセッションとともにログされます。Events、 Runs/sessions ロールアップ、実行ごとのトレースの読み取りには Developer+ が必要です；より軽い Discovered-tools と異常フィードはすべての Member に開放されています。 Runs & sessions ビューはフォレンジックの主力です：イベントをエージェント実行ごとに、判定の内訳、実行が触れた個別のツールとモデル、初回/最終の観測タイムスタンプにロールアップします — 「このエージェントが実際に何をしたか」の答えを 1 画面で。静的な判定を超えて、異常フィードは、各ワークスペースの学習された曜日内時間ベースライン（14 日間の移動平均）からの逸脱 — レートとコストのスパイク、 retry_loop、novel_path 遷移 — をフラグするため、許可されたが異常なパターンも依然としてレコードに表面化します。

4. 承認決定 — 誰がイエスと言ったか（監査アクション）

ルールが pending_approval に解決されると、保留された呼び出しは帯域外のレビューになります（ファイアウォールの HITL フローを参照）。決定は証跡の一部です：承認または拒否はワークスペース監査行 — firewall_approval_approve または firewall_approval_reject — を書き、アクターを名指しします。決定はファーストライタウィンかつ冪等で、基礎となるルールが保留の後に変わった場合、エンリッチメントはコンテキストが変わったことを記録します。そのため、保留されてから承認されたツール呼び出しは、エンドツーエンドで完全に帰属可能です：ファイアウォールイベントが保留を示し、監査行が誰がそれを解放したかを示し、両方が同じ実行に相関します。

5. ポリシー変更監査 — 誰がルールを変えたか

エージェントの挙動の証跡は、その時点でポリシーが何だったか — そして誰がそれを変えたか — も証明できる場合にのみ信頼できます。 ガードレールは完全なバージョン履歴を保持します。すべての作成、更新、削除が、変更と同じトランザクションでバージョン管理された履歴行を書きます。ガードレールの History を開いて、作者とタイムスタンプ付きのすべてのバージョンを見、任意の 2 つを差分し、古いものに復帰します（復帰は新しいバージョンとして記録されます — 履歴は決して変異されません）。 ファイアウォールのポリシー、ルール、設定の変更は、それぞれ変更がコミットされた後にワークスペース監査行 — firewall_policy_update、firewall_rule_create、 firewall_settings_update など — を書き、自律性レベルの変更（firewall_autonomy_applied / firewall_autonomy_undone）は、ワンクリック取り消しを動かす前状態スナップショットを捕捉します。シークレットとルールブロブは決してログされません。

両方のプレーンが変更をログし、かつポリシーを可逆に保ちます。ルール編集がリグレッションを引き起こした場合、ポリシー変更証跡がどの編集を誰が行ったかを教え — 何も再デプロイせずにロールバックできます。

6. 実例：1 つの容疑実行をトレースする

ある実行が予期しないアウトバウンド呼び出しでフラグされたとします。コンソールから、 Developer+ セッションで：

Firewall → Runs で実行を開く

実行をその id で見つけます。ロールアップは、それが呼び出したすべてのツールと、それぞれの判定 — それをフラグしたフェッチ形状のツールへの deny を含む — を示します。

イベントにピボット

deny されたイベントにドリルダウンします。それはツール名、マッチしたルールと理由、サーフェス、そして実行/セッション系統 — ガードレール側を整列させるために使うのと同じ系統 — を運びます。

同じ実行で何がスクリーニングされたか確認

Guardrails → Matches を開き、その実行にフィルタします。Secrets Blocker や PII ルールがプロンプトで発火していた場合、エージェントが持ち出そうとする前に機微素材を 手渡されたことが今わかります。

ポリシーが有効だったことを確認

ガードレールの History とファイアウォールポリシーの監査行を開きます。実行の前に誰も関連ルールを弱めなかったことを確認します — もし誰かがそうしていたら、作者とタイムスタンプがあります。

1 つの実行、4 つの相関したレコード、ログ grep の考古学なし。持ち出し防御自体については、データ持ち出しと危険なツール呼び出しを参照してください。

7. 署名されたコンプライアンスレポート — 監査人が検証できる証跡

外部の証明のために、Compliance サーフェスはこの証跡を単一のアーティファクトに変えます。フレームワークカタログ、パック、準備状況の閲覧はすべての Member に開放され無料です；パックのインストール、レポートの生成、ライブ化、データレジデンシーの設定は、 有料プラン上のワークスペース Admin アクションです（サーバーゲート）。コンプライアンスレポートは、SHA256 コンテンツハッシュ付きで Ed25519 署名 され、公開検証可能です — 受信者は OrcaRouter アカウントなしでそれをチェックします：

エンドポイント	目的
`GET /api/public/compliance/pubkey`	検証するための公開鍵。
`POST /api/public/compliance/verify`	レポートの署名 + ハッシュを検証。
`GET /api/public/compliance/share/:token`	レポートへの監査人共有リンク。

レポートは CSV / JSON / PDF としてエクスポートされます。フレームワークには soc2、 hipaa、gdpr、iso_27001、iso_42001、nist_ai_rmf、pci_dss、EU AI Act （eu_ai_act）、そして OWASP Top 10 for LLM Applications（owasp_llm）などが含まれます — パックのインストールはマッチするガードレールとファイアウォールポリシーを具現化するため、レポートするコントロールが実際に強制されているコントロールになります。

ここでのデータレジデンシーは、レポートアーティファクトのリージョン（us / eu / uk / ap / cn / global）であり、PUT /api/compliance/residency（Admin）経由で設定可能です；クロスリージョン読み取りは差し止められます。それは証拠アーティファクトがどこに存在するかを統制します — あなたの推論トラフィックのジオピン留めではありません。

8. 保持と消去権

フォレンジックレコードは有限であり、永遠ではありません。リクエストログはデフォルトで 30 日間の保持で、サーバーがハードな最大値 180 日にクランプします。ユーザーが自己削除すると、30 日間の猶予ウィンドウが適用され、その後彼らの PII がスクラブされ、カスケードが彼らのガードレールマッチ、リクエストログ、ファイアウォールイベントをパージします — 集計監査履歴をそのまま保ちながら、消去権 / DSAR の義務を満たします。

9. 次に進む先

ガードレールリファレンス

Matches、生コンテンツのログ、バージョン履歴、そして完全なルールセット。

ファイアウォールリファレンス

Events、Runs、異常、承認、そして監査ログ。

過剰なエージェンシー

エージェントが行動する前に、何をしてよいかを制約します。

強制モード

Audit、shadow、observe — 強制する前に証跡を構築する方法。

​1. AI エージェント監査証跡の背後にある 4 つのレコード

ガードレール Matches

ファイアウォール Events & Runs

承認決定

ポリシー変更履歴

​2. ガードレール Matches — 何がスクリーニングされたか（Member）

​3. ファイアウォール Events & Runs — エージェントが何をしたか（Developer+）

​4. 承認決定 — 誰がイエスと言ったか（監査アクション）

​5. ポリシー変更監査 — 誰がルールを変えたか

​6. 実例：1 つの容疑実行をトレースする

​7. 署名されたコンプライアンスレポート — 監査人が検証できる証跡

​8. 保持と消去権

​9. 次に進む先

ガードレールリファレンス

ファイアウォールリファレンス

過剰なエージェンシー

強制モード

1. AI エージェント監査証跡の背後にある 4 つのレコード

2. ガードレール Matches — 何がスクリーニングされたか（Member）

3. ファイアウォール Events & Runs — エージェントが何をしたか（Developer+）

4. 承認決定 — 誰がイエスと言ったか（監査アクション）

5. ポリシー変更監査 — 誰がルールを変えたか

6. 実例：1 つの容疑実行をトレースする

7. 署名されたコンプライアンスレポート — 監査人が検証できる証跡

8. 保持と消去権

9. 次に進む先