判定とデフォルト判定

ファイアウォールポリシーは、エージェントが行うすべてのツール呼び出しについてひとつのことを決定します：判定です。ルールがマッチして判定を生成するか、どのルールもマッチせずポリシーのデフォルト判定が引き継ぐかのどちらかです。このページは両方をカバーします — 各ファイアウォール判定が何をするか、 cap_cost がどう解決されるか、そしてなぜ audit が開始するデフォルトなのか。判定がルール文法のどこにあるかについてはファイアウォールルールを、ポリシー作成時にデフォルト判定を選ぶことについては作成 & アタッチを参照してください。

1. 6 つのルール判定

ルールはちょうど 6 つの判定のうちのひとつを生成します。コンソールのルールエディタでそれらを作成します；エンジンは優先度順にルールを辿り、最初にマッチしたものが勝ちます。

allow — 呼び出しを通す、ログ付き

呼び出しは手を加えられずに進みます。それでも events フィードに allow として着地するため、何もブロックせずに監査証跡を維持できます。デフォルト deny ポリシーでの明示的な許可として使います。

audit — 許可、ただしレビュー用に記録

トラフィックの結果は allow と同一ですが、呼び出しは監視したかったものとしてフラグされます。これはデフォルト判定が箱から出した状態で着地する値でもあります — 強制する準備ができるまで、すべてを観察し、何もブロックしません。

deny — 呼び出しをブロック

呼び出しはツールに決して到達しません。inbound サーフェスでは、リレーはツールと理由を名指しするエラーコード firewall_blocked の HTTP 400 を返します；mcp サーフェスではツールエラーとして返ってくるため、モデルが反応できます。ブロックがどう見えるかを参照。

sanitize — 引数をリダクトしてから転送

ツール呼び出しの引数からマッチした部分文字列をリダクトし（エージェントが command や body フィールドに入れたシークレットや PII）、クリーニングされた呼び出しを転送します。引数のみをリダクトします — ツールが返すコンテンツは決して触りません。inbound サーフェスではまだ呼び出し時の引数がないため、 sanitize は deny にエスカレートします。レスポンスのサニタイズを参照。

pending_approval — 人間のために保留

呼び出しを帯域外のレビューに変えます。リレーはコード firewall_approval_pending と承認 id を持つ HTTP 400 を返します；呼び出しはツールに到達しません。レビュアーがコンソールまたは webhook コールバック経由でそれを解決し、エージェントは単回使用の承認ヘッダーとともに再送信します。承認を参照。

cap_cost — 支出上限を超えたら deny

コストサーキットブレーカー — ルールとして作成されますが、評価時に allow または deny に解決されます。§3とコスト上限を参照。

シャドウモードは強制を平坦化します。 シャドウモードでは、すべての強制判定（deny、sanitize、pending_approval、そして deny に解決された cap_cost）が audit に格下げされ、理由には [shadow] would … が前置されます。強制ポリシーをこの方法でロールアウトし、ライブにする前に events フィードを監視します。

2. デフォルト判定

デフォルト判定（ポリシーの default_verdict）は、ポリシーがどのルールもマッチしないツール呼び出しに対して行うことです。それはあなたの姿勢の床であり、ルール判定とは異なり、3 つの値のみを受け入れます：

`default_verdict`	どのルールもマッチしないとき…
`audit` (デフォルト)	呼び出しを許可しますが、記録します。安全な開始点。
`allow`	許可してログ、レビューレコードなし。
`deny`	ルールが明示的に許可しないものをブロック — デフォルト deny の姿勢。

新しいポリシーはデフォルトで audit です：すべてのツール呼び出しを観察し、強制ルールを追加するまで何もブロックしません。3 つのルール専用判定 — sanitize、 pending_approval、cap_cost — はデフォルトになれません；デフォルト判定は全体的なフォールバックであり、それらの判定は特定のマッチにスコープされたときのみ意味を持ちます。

デフォルト判定としての deny はデフォルト deny です：ルールが明示的に allow しないツール呼び出しはブロックされます。ロックダウンされたエージェントには強力ですが、許可リストし忘れた呼び出しを止めてしまいます。明示的な allow ルール（ツール許可リスト）と組み合わせ、まずシャドウモードのもとでロールアウトしてください。

3. cap_cost は allow または deny に解決される

cap_cost は、events に表示されるものと異なる唯一の判定です。cap_cost_cents 上限を持つルールを作成しますが、評価時にエンジンはそれをイベントが記録される前に具体的な allow または deny に解決します — そのため events フィードはリテラルの cap_cost 判定を決して運ばず、エージェントが実際に見た allow/deny のみを運びます。上限はエージェント実行ごとです：エンジンは実行の累積支出を上限と比較します。

上限未満 → allow に解決されます。（内部的にはこれは非マッチとして扱われるため、cap_cost を最初のマッチとして許可として勝たせるのではなく、次のルールに評価が続きます。）
上限超過 → deny に解決され、実行の合計と上限を名指しする理由が付きます。これは終端の、サーキットブレーカーの結果です。

// A rule that caps a run at $5.00 of accumulated spend.
{
  "label": "run cost ceiling",
  "tool_name_glob": "*",
  "verdict": "cap_cost",
  "cap_cost_cents": 500
}

cap_cost はディスパッチ前のサーフェス（inbound、mcp）でのみ発火します — 呼び出しをブロックすることで依然として支出を防げるポイントです。ディスパッチ後の response と egress サーフェスでは不活性です（止めるものが何も残っていません）ので、エンジンはそこではそれをスキップします。

4. 判定がどう選ばれるか

任意のツール呼び出しについて、どの判定が勝つかに関わらず解決は同じです：

1. ポリシーを解決する

ゲートウェイは呼び出し元キーにアタッチされたポリシー（firewall_policy_id）、またはワークスペースデフォルトを選びます — 解決を参照。

2. ルールを辿り、最初にマッチしたものが勝つ

ルールは priority ASC 順で実行されます。サーフェス、ツールグロブ、オプションの引数句、オプションの egress スコープがすべてマッチする最初のルールが判定を生成します。

3. マッチなし → デフォルト判定

どのルールもマッチしなければ、ポリシーの default_verdict が適用されます — 変更していなければ audit です。

4. スキル強制が上に乗る

呼び出しが統制されたスキルによって所有されている場合、block モードのスキルは deny を強制し、quarantine モードのスキルは deny 未満のものを pending_approval にエスカレートします。

5. deny のコストと再試行の挙動

inbound サーフェス上のファイアウォール判定はアップストリームのモデル呼び出しの前に発火するため、そこでの deny はモデルトークンを消費しません。エラーは skip-retry とマークされます — 同じブロックされた呼び出しを再実行してもまたブロックされるだけなので、ゲートウェイはクライアントに再試行しないよう伝えます。これはガードレールブロックとは異なります。ガードレールはツールのアクションではなくプロンプト/レスポンスの テキスト（PII、シークレット）をスクリーニングし、独自の guardrail_blocked エラーを返します。リクエストは両方のプレーンを通過できます。

各判定は証跡を残します。 すべての評価 — allow、audit、deny、解決された cap_cost、保留された承認 — はファイアウォールイベントとして記録され、判定、サーフェス、ツール、実行でフィルタ可能です。events フィードは、ポリシーが期待する判定を生成していることを確認する方法です。events ログと分析を参照。

次に進む場所

ポリシーの作成 & アタッチ

デフォルト判定を選び、ポリシーをキーにバインドします。

コスト上限

支出上限を作成し、それが実行ごとにどう解決されるか。

シャドウモード

影響を測定する間、すべての強制判定を audit に格下げします。

ルールリファレンス

判定の背後にある完全なマッチング言語。

これらの判定が止めるべき脅威については、危険なツール呼び出しと過剰なエージェンシーを参照してください。

​1. 6 つのルール判定

​2. デフォルト判定

​3. cap_cost は allow または deny に解決される

​4. 判定がどう選ばれるか

​5. deny のコストと再試行の挙動

​次に進む場所

ポリシーの作成 & アタッチ

コスト上限

シャドウモード

ルールリファレンス

1. 6 つのルール判定

2. デフォルト判定

3. cap_cost は allow または deny に解決される

4. 判定がどう選ばれるか

5. deny のコストと再試行の挙動

次に進む場所