ガードレールマッチをレビューする — Matches フィード

ガードレールをアタッチし、今度は何を捕捉したか確認したい。Matches フィードは OrcaRouter のガードレールマッチログです — ルールが発火するたびに（block、mask、 flag、annotate、または spotlight）、ゲートウェイは、コンソールでレビューしたり API で取得したりできるマッチを記録します。これが「昨日 PII ルールが何をリダクトしたか？」、「どのキーがシークレットブロッカーを引っかけるか？」、「このルールは実際のトラフィックで発火しているのか、それとも単なるノイズか？」に答える方法です。このページはマッチの読み取りとトリアージに焦点を当てたガイドです。ルールがどう作成され、各アクションが何をするかについては、ガードレールリファレンスを参照してください。

1. ガードレールマッチログが記録するもの

発火したすべてのルールは、ワークスペーススコープのフィード（GET /api/guardrail/match、任意の Member に開放）に 1 つのマッチを書き込みます。フィードはリクエストログとは別個です — ガードレールが何をしたかだけを保存し、完全なリクエストボディは保存しません。各マッチが記録するもの：

判定

rule_type（keyword、regex、pii、max_chars、external、 llm_judge、grounding）、有効な action（block / mask / flag / annotate / spotlight）、そして stage（input または output） — これにより、何が発火し何をしたかを即座に判別できます。

どこで発火したか

guardrail_name、発火した rule_label、加えてリクエストコンテキスト： model_name、それが乗ってきた token、呼び出し元の ip、そしてリクエストログに結合し直す request_id。

詳細文字列

detail — 違反に対するエンジンの短い人間可読のノート（例：どのエンティティまたはパターンが引っかかったか）、常に記録されます。

マッチした部分文字列 — オプトインしたときのみ

matched は、ガードレールの Log raw content トグルがオンのときにのみ埋められます。デフォルトでオフのため、デフォルトではフィードはルールが発火したこととその理由を教えますが、機密文字列そのものは決して保存しません。

生コンテンツはオプトインで非遡及的です。 Log raw content がオフ（デフォルト）の場合、matched フィールドは空のままです — フィードは判定と detail を記録し、ルールを引っかけた email アドレス、シークレット、PII は決して記録しません。トリアージのために部分文字列が必要なときにのみ、ガードレールごとにオンにします。それは、有効化した後に記録されたマッチに適用されます。ロギングとプライバシーを参照してください。

2. マッチログを一覧してフィルターする

デフォルトの一覧ビューは、カーソルページネーション、新しい順、そしてワークスペースにスコープされています。クエリパラメータで絞り込みます — コンソールはこれらをフィルターチップとして公開します：

パラメータ	フィルター対象
`guardrail_id`、`rule_type`、`action`、`stage`	判定
`token_id`、`model_name`、`request_id`	リクエストコンテキスト
`days` / `start_at` + `end_at`、`hide_fp`	ウィンドウと誤検知の状態

「今週シークレットガードレールがブロックしたものをすべて見せて」という典型的な読み取り、コンソールセッショントークンを使用：

curl "https://api.orcarouter.ai/api/guardrail/match?guardrail_id=42&action=block&days=7" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"

/api/guardrail/* のような管理ルートは、リレーキーではなくコンソールセッション / アクセストークンで認証します。sk-orca-... キーは /v1/* モデル呼び出し専用です。日々の使用では、Guardrails ページの Matches タブからフィードを直接読みます。

3. リクエストでグループ化する

単一のリクエストが一度に複数のルールを引っかけることがあります — 入力 PII マスクと最大長上限、というように。グループ化されたビュー（GET /api/guardrail/match/grouped、Member）は、マッチを request_id で折りたたむため、同じ呼び出しに対して 5 行をスクロールする代わりに、違反するリクエストごとに 1 行を、そのマッチをインラインで折りたたんで見られます。グループごとにインラインで表示するマッチ数は inline_limit（デフォルト 5）でチューニングします。

4. 統計とトレンドストリップ

統計エンドポイント（GET /api/guardrail/match/stats、Member）は、Matches タブのカウントストリップとチャートを支えます — days ウィンドウ内の合計を、オプションで group_by で内訳します：

`group_by`	内訳
(省略)	合計のみ
`rule_type`	どのルールの種類が最も発火するか
`guardrail_id`	どのガードレールがアクティビティを占めるか

request_id を渡すと、1 つのリクエストに対する定数時間のマッチカウントが得られます（リクエストログのクロスリンクで使用）。ここにガードレールごとの使用量、アクションの構成、誤検知率が存在します — 生の一覧をページングするのではなく、これをスライスします。

5. 監査証跡のためにエクスポートする

コンソールの外でマッチが必要なとき — エビデンスパック、スプレッドシート、下流の SIEM — GET /api/guardrail/match/export（Member）は、現在のフィルターセットを CSV または JSON としてストリームします：

curl "https://api.orcarouter.ai/api/guardrail/match/export?format=csv&guardrail_id=42&days=30" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -o guardrail-matches.csv

エクスポートは、フィードが記録するのと同じカラムを持ちます — 時刻、ガードレール、ルールの種類とラベル、ステージ、アクション、モデル、トークン、詳細、マッチした部分文字列（記録時に生コンテンツキャプチャがオンだった場合のみ）、リクエスト ID、 ip、そして誤検知のタイムスタンプ。

CSV は数式インジェクションに対して安全です：スプレッドシート数式として読み取られる可能性のあるセルは中和されるため、Excel や Sheets でエクスポートを開いても、マッチした部分文字列を通じて密輸されたペイロードが実行されることはありません。

6. 誤検知をトリアージする

すべてのマッチが本物のヒットというわけではありません。ルールが良性のトラフィックで発火したとき、ワークスペース Admin はマッチを誤検知としてマークできます（POST /api/guardrail/match/:id/mark-fp）。逆の DELETE /api/guardrail/match/:id/mark-fp はそれを解除します。マークは、フィードの残りが Member 読み取り可能であっても Admin 専用です — トリアージは特権アクションです。誤検知をマークすると 2 つのことが起こります：マッチにタグを付け（そのため hide_fp=true がそれをフィードから除外します）、そして所見を記憶するため、同じコンテンツに対する同じルールが将来のリクエストでスキップされます。強制を復元するにはマークを解除します。ノイジーなルールのチューニングのより広いワークフローについては、誤検知のチューニングを参照してください。

マッチは診断データであり、強制の判断ではありません。 リクエストがブロック、マスク、または単にフラグされたかは、リクエスト時のアクションですでに決着しています — フィードは事後の記録です。誤検知をマークすると将来の 挙動が変わり、すでに発生した呼び出しは決して変わりません。

7. マッチがどこから来るか

マッチは、リレーパス上のガードレールエンジンによって生成されるため、フィードはアタッチされたポリシーが行ったことを正確に反映します：

入力ステージのマッチは、モデルが目にする前にゲートウェイがスクリーニングしたものを記録します — 入力ステージを参照してください。
出力ステージのマッチは、レスポンス上でスクリーニングしたものを記録します — 出力ステージを参照してください。
ブロックされたリクエストは、呼び出し元への HTTP 400 guardrail_blocked としても表に出ます。マッチはそのサーバーサイドの記録です。

リクエストでガードレールが解決されなければ、何もスクリーニングされず、何もフィードに着地しません — 挙動は、この機能を一度も有効化していないワークスペースと同一です。ポリシーがそもそもどうトラフィックの前に立つかについては、キーにアタッチとアカウントデフォルトを参照してください。

8. 関連

ガードレールリファレンス

完全なエンジン：ルールの種類、ステージ、アクション、プリセット、eval ハーネス。

ロギングとプライバシー

Log raw content トグルと、フィードが保存するもの — そして保存しないもの。

誤検知のチューニング

フィードを使ってノイジーなルールを見つけ、ポリシーを弱めることなく静かにします。

バージョニング

フィードが変更の誤作動を示したとき、ガードレールを diff して revert します。

ゲートウェイがトラフィックをどう検査するかのより大きな全体像については、 OrcaRouter がどう検査するかとガードレール vs. ファイアウォールを参照してください。

​1. ガードレールマッチログが記録するもの

​2. マッチログを一覧してフィルターする

​3. リクエストでグループ化する

​4. 統計とトレンドストリップ

​5. 監査証跡のためにエクスポートする

​6. 誤検知をトリアージする

​7. マッチがどこから来るか

​8. 関連

ガードレールリファレンス

ロギングとプライバシー

誤検知のチューニング

バージョニング

1. ガードレールマッチログが記録するもの

2. マッチログを一覧してフィルターする

3. リクエストでグループ化する

4. 統計とトレンドストリップ

5. 監査証跡のためにエクスポートする

6. 誤検知をトリアージする

7. マッチがどこから来るか

8. 関連