誤検知のチューニング

過度に積極的なガードレールは、ガードレールがないよりも悪いです — あなたのチームは Matches フィードを無視することを学ぶか、ルールを緩めて実際に欲しかった捕捉を失います。OrcaRouter は精密な中間の道を提供します：単一のマッチを誤検知としてマークすると、エンジンがその所見を記憶し、将来のリクエストでそれをスキップします — ルールに触れたり、パターンを緩めたり、SDK 変更を出荷したりすることなく。これは誤検知ワークフローに焦点を当てたランディングページです。完全なガードレールエンジン — すべてのルールの種類、フィールド、ルート — については、ガードレールリファレンスを参照してください。

ここでのすべてのステップは、ホスト型ゲートウェイ（api.orcarouter.ai）上の コンソール アクションです。マッチは自分のセッション下でトリアージします。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。マッチを誤検知としてマークするには、ワークスペース Admin ロールが必要です。Matches フィードと結果として得られる抑制リストの読み取りは、すべての member に開放されています。

1. ルールを弱めずにガードレールの誤検知を減らす

ルールが過剰に発火したときの本能は、それを緩めることです — regex 除外を広げ、エンティティを落とし、block を flag に反転する。それは 1 つの誤検知を、ポリシーの穴と引き換えにします。誤検知マークによる抑制は、外科的な代替策です：

ひとつの所見を抑制する

誤作動した正確なマッチ — 特定のルールの下の特定の部分文字列 — をミュートし、ルール全体ではありません。次の本当に機密性の高いヒットは依然として発火します。

ルール編集なし、再デプロイなし

抑制はワークスペースのメモリとしてゲートウェイに存在します。ルールは書かれたとおりに正確に残ります。あなたのアプリは /v1/* を変更なしで呼び出し続けます。

ワークスペース全体のメモリ

ひとりの Admin が一度マークすれば、抑制はワークスペース全体で重複排除されるため、すべてのメンバーのトラフィックが恩恵を受けます — キーごとのファンアウトなし。

可逆

マッチのマークを解除する（または抑制を削除する）と、所見は次のリクエストで再び発火します。何も破壊されません。

抑制は、あなたが良性と判断した所見のためのものです。ルール全体が誤調整されている場合 — 間違った形状、間違ったステージ — マッチを次々とミュートするのではなく、ルールを修正し、Eval ハーネスでそれを証明します。

2. マッチがどう抑制になるか

発火したすべてのルールは、ワークスペースの Matches フィードにマッチ — ルールの種類、アクション、ステージ、詳細文字列 — を記録します。それらのマッチのひとつを誤検知としてマークすると、ゲートウェイは所見に対して安定したフィンガープリントを導出し、それをワークスペースの抑制リストに書き込みます。すべての将来のリクエストで、エンジンは各所見のフィンガープリントをそのリストと照合し、block、mask、flag できる前に、抑制されたものをスキップします。 2 種類の所見がフィンガープリントを生成します：

コードセキュリティ所見は独自のフィンガープリントを持つ

CVE / SBOM 所見は、すでに安定したアイデンティティを伴って出荷されます — アドバイザリまたはコンポーネントのアイデンティティが所見とともに移動します。ひとつを抑制すると、その正確な CVE / コンポーネントを、そしてそれだけをミュートします。これは抑制ストアが構築されたネイティブのケースです。

決定的なルールは合成フィンガープリントを得る

keyword、regex、PII、その他の決定的なルールの種類は、独自のアイデンティティを持たないため、ゲートウェイは、書き込み側（あなたの mark-FP クリック）と強制側（次のリクエスト）で同一なデータからひとつを合成します：ガードレール、ルールのマッチングアイデンティティ、そして — 生キャプチャがオンのとき — マッチした部分文字列そのもの。

合成フィンガープリントの精度は Log raw content に依存し、これはデフォルトでオフです。キャプチャがオンの場合、フィンガープリントは正確なマッチした部分文字列をキーにするため、ORD-48291507 を抑制するとその注文番号だけをミュートし、他には何もしません。キャプチャがオフの場合、キーにする部分文字列がないため、抑制はルールレベルのミュートにフォールバックします — それはその 1 つのルール（そのステージで）をワークスペースに対して沈黙させます。フォールバックは、それが来たルールを決して超えて到達しません。ロギングとプライバシーを参照してください。

3. 具体例 1 つ

ORD- に 8 桁を足した形の内部注文番号をマスクする regex ルールを実行しているとします。サポートチケットが ORD-48291507 を、通過させても問題ないと判断した形で正当に引用しています。あなたはルールを弱めたくありません — ただこの 1 つの番号が発火を止めることを望みます。

Matches フィードを開く

コンソールで Guardrails → Matches を開きます。ガードレールとルールの種類でフィルターして、ORD-48291507 ヒットの行を見つけます。（リテラルな部分文字列を見るには、マッチが記録されたときにガードレールの Log raw content がオンでなければなりません — デフォルトでオフです。）

誤検知としてマークする

マッチ詳細を開き、Mark as false positive を選びます。ワークスペース Admin として、これはマッチにスタンプを押し、所見のフィンガープリントをキーにしたワークスペース抑制をミラーします。

抑制されたことを確認する

Suppressions リストを開きます — 新しいエントリが、それが来たガードレールとルール、そして理由 “Marked as false positive from Matches” でラベル付けされて表示されます。ワークスペースのすべてのメンバーがこのリストを読めます。

同じリクエストを再び送信する

リレーキーを使って、以前と全く同様に OrcaRouter を呼び出します — 新しいヘッダーなし、SDK 変更なし：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Status of order ORD-48291507?"}
    ]
  }'

抑制された所見はスキップされ — ORD-48291507 は通過します — 一方、他の注文番号は依然としてマッチし、以前と同様にマスクされます。

4. 抑制 vs. 代替策

抑制は、ノイジーなルールを静かにする 4 つの方法のひとつです。適合する最も狭いものを選びます：

アプローチ	何を変えるか	いつ手を伸ばすか
Mark FP	ひとつの所見（またはひとつのルール、キャプチャオフ）	特定の良性ヒット；ルールはそれ以外は正しい
ルールを編集	マッチングそのもの	間違った形状 / ステージ — 修正してから再 eval
`flag` アクション	観察のみ、ブロックなし	まだ信頼していない新しいルール
Eval ハーネス	ライブには何もなし — 測定する	出荷前に適合率を証明する

体系的に間違ったルールを、FP を次々マークすることで取り繕わないでください。同じ形状を繰り返し抑制している場合、ルールは誤調整されています — regexをアンカーし、キーワードリストを絞り込むか、より厳格な PII エンティティを選び、 eval 実行で検証します。

5. 抑制を取り消す

ここでは何も一方通行ではありません：

マッチのマークを解除する — 同じ Admin アクションを逆にすると、マッチの FP スタンプを削除し、（他に FP マークされたマッチがそれにマップしない場合）抑制を落とします。所見は次のリクエストで再び発火します。
抑制を直接削除する — Suppressions リストから、Developer+ アクションがエントリを削除します。同じ効果：所見が再びライブになります。

抑制はワークスペースのメモリであるため、ひとつを取り消すとすべてのメンバーのトラフィックに対して捕捉が一度に復元されます — 全員に対して抑制をマークするのと同じです。

6. API 面

これらはコンソールルートであり、セッションで認証します — リレーキーではありません。各アクションをロールゲートします：マッチを FP マークするのは Admin、抑制の読み取りは Member、抑制の書き込みは Developer+ です。

メソッドとパス	ロール	目的
`GET /api/guardrail/match`	Member	トリアージするマッチを一覧します。
`POST /api/guardrail/match/:id/mark-fp`	Admin	マッチを誤検知としてマークします（抑制をミラーします）。
`DELETE /api/guardrail/match/:id/mark-fp`	Admin	マークを解除します — 所見を復元します。
`GET /api/guardrail/suppressions`	Member	ワークスペースのアクティブな抑制を一覧します。
`POST /api/guardrail/suppressions`	Developer+	抑制を直接追加します。
`DELETE /api/guardrail/suppressions/:id`	Developer+	抑制を削除します。

mark-FP エンドポイントはレート制限されています — それらは意図的で低ボリュームのトリアージアクションであり、バルク API ではありません。ポリシー全体をチューニングしているときは、mark-FP 呼び出しのループではなく、Eval ハーネスに手を伸ばします。

7. 次に進む先

Matches フィード

発火したすべてのルールが着地する場所 — 何かをマークする前にトリアージする場所。

テストと eval

出荷する前にコーパスに対してルールの適合率を証明します — 抑制が症状を扱っているときの体系的な修正。

ロギングとプライバシー

Log raw content が、抑制が正確な部分文字列をキーにするか、ルールレベルのミュートにフォールバックするかをどう制御するか。

ガードレールリファレンス

完全なエンジン — すべてのルールの種類、アクション、ルート。

抑制はコンテンツ所見を統制します。ノイジーなエージェントファイアウォール ルール — 安全と判断したツールマッチ — を静かにするには、それは別個の面です。ファイアウォールとその異常フィードを参照してください。ガードレールとファイアウォールがどこで分かれるかを理解するには、ガードレール vs. ファイアウォールを読んでください。

​1. ルールを弱めずにガードレールの誤検知を減らす

ひとつの所見を抑制する

ルール編集なし、再デプロイなし

ワークスペース全体のメモリ

可逆

​2. マッチがどう抑制になるか

​3. 具体例 1 つ

​4. 抑制 vs. 代替策

​5. 抑制を取り消す

​6. API 面

​7. 次に進む先

Matches フィード

テストと eval

ロギングとプライバシー

ガードレールリファレンス

1. ルールを弱めずにガードレールの誤検知を減らす

2. マッチがどう抑制になるか

3. 具体例 1 つ

4. 抑制 vs. 代替策

5. 抑制を取り消す

6. API 面

7. 次に進む先