自律的な長時間稼働エージェントを手懐ける

長時間稼働する自律エージェントは、セキュアにするのが最も難しいものです。それは自分で何時間もループし、自分でツールを選び、自分で URL を取得し、その間ずっとあなたのお金を使います。失敗モードはひとつの悪いプロンプトではありません — それは一晩で $400 を燃やすリトライループ、一度もレビューしなかったツール呼び出し、1 週間の実験のために発行したのに 6 か月後もまだ動くキーです。このレシピは、まさにその形のエージェントに 4 つのコントロールを配線します。そのすべてをコンソール（または REST API）で設定します — エージェントは以前と全く同様に https://api.orcarouter.ai/v1/... を呼び続けます。

ここは初めてですか？まず balanced ベースラインを適用し、あなたのエージェントが何をするかを 1 日観察してください。このページは次のステップです：あなたがお守りできないエージェントのために、観察を強制へと変えます。

1. セキュアな自律エージェントのレシピ

セキュアな自律エージェントは、チャットボットが必要としない 4 つのものを必要とします：

ハードなコスト上限

cap_cost ルールは、run の累積支出があなたの上限を超えたら run を deny します — 止まらないループのためのサーキットブレーカーです。

スパイク検出

異常検出はエージェントの通常の曜日内時間の形を学習し、静的ルールをすり抜けるレートとコストのスパイクをフラグします。

危険な呼び出しへの承認

pending_approval 判定は、エージェントが慎重であることを信頼する代わりに、破壊的または不可逆なツール呼び出しを人間のために保留します。

期限切れするキー

エージェントのキーを期限とクレジット上限にスコープし、忘れられた実験が永遠に実行 — あるいは支出 — できないようにします。

それぞれが 1 つのファイアウォールポリシーまたはキーフィールドにマッピングされます。どれもあなたのエージェントコードに触れません。

2. すべての run のコストに上限をかける

暴走ループがまず吹き飛ばすのはあなたの予算です。cap_cost ルールは厳格な事前チェックのコスト上限です：マッチすると、ゲートウェイはリクエストのコストを見積もり、 run の累積支出が上限を超えるならディスパッチ前に deny します — つまり予算超過の呼び出しが決してプロバイダに到達しません。上限は run スコープです。ゲートウェイはエージェント run 全体にわたる過去の支出を合計するため、既に予算の大部分を燃やした長い run は、次の個別の呼び出しが安くても deny されます。これが、リクエストごとの制限ではなくサーキットブレーカーにしているものです。ファイアウォールポリシーにワイルドカードルールを 1 つ追加します：

{
  "priority": 50,
  "tool_name_glob": "*",
  "verdict": "cap_cost",
  "cap_cost_cents": 1000
}

これは run を $10 に上限します（cap_cost_cents は USD セント単位）。判定は予算内なら allow に、見積もりが超えるなら deny に解決されます。ほとんどの組み込みファイアウォールテンプレート（Coding、Support、RAG、Data、DevOps、Browser）は、まさにこれと同様の run ごとのコスト上限を出荷しています — ひとつを適用して上限を編集します。

run スコープの累積には、ワークスペースに対してリクエストログのキャプチャが有効である必要があります。それがオフだと、過去支出のロールアップはゼロを読み、上限はリクエストごとのみに劣化します — 依然として安全ですが、緩やかな 500 呼び出しのドリップは捕捉しません。デニアル・オブ・ウォレットを参照。

3. 学習されたベースラインに対してスパイクを検出する

上限は破局を止めます；異常検出は、それが破局になる前に奇妙さを捕捉します。ファイアウォールは各ワークスペースの通常のツール使用の形を学習し — 曜日内時間でバケット化された 14 日間の移動平均なので、火曜 14:00 のトラフィックは平坦な日次平均ではなく火曜 14:00 の履歴と比較されます — 逸脱をビューア可読のフィードに表面化します：

rate_spike — ツールがその標準をはるかに超えて発火

学習されたベースラインに対してスコアリングされたツールごとの呼び出し量。「ベースライン 8 に対して 1 時間に 143 回の db.query 呼び出し」は、各個別の呼び出しが許可される場合でも表面化します。

burn_spike — コストが学習された支出を超えて上昇

同じベースラインを、カウントではなく支出に適用 — この時間に通常よりはるかに多く燃やしている run。

retry_loop — エージェントが失敗するツールを叩き続けている

同じ壊れた呼び出しをリトライして詰まっている自律エージェントの兆候。過剰なエージェンシーを参照。

novel_path — これまで見たことのないツール遷移

このワークスペースが一度も行ったことのないツール間のホップ — どこか新しい場所へ向かうエージェントの形。

フィードはツール名、リダクトされたトークン id、そしてカウントを報告します — 生の引数は決して報告しません。読み取りは任意の Member に開放されています；Developer+ は調査中にフィードを最大 7 日間スヌーズできます。フィードを cap_cost ルールと組み合わせて、予算超過でもあるスパイクが単に気づかれるだけでなく止められるようにします。

4. 危険な呼び出しを人間のために保留する

自律エージェントが行うすべての呼び出しをレビューすることはできません — しかし、重要な一握りの前に、それを止めて尋ねさせることはできます。pending_approval 判定はツール呼び出しを帯域外で保留します：

エージェントが、例えば payments.transfer 呼び出しを発行します。ルールがマッチし、エンジンは承認 id とともに HTTP 400 firewall_approval_pending を返します — 呼び出しは決してツールに到達しません。
レビュアーがコンソールからそれを解決する（Developer+）か、あなた自身のシステムが POST /api/v1/firewall/approvals/:id/callback への HMAC 署名付き webhook コールバック経由で解決します。
エージェントが GET /api/v1/firewall/approvals/:id をポーリングします；承認されると、単回使用の X-OrcaRouter-Firewall-Approval ヘッダーとともに元の呼び出しを再送信し、ゲートウェイはその一度だけ通します。

破壊的なサーフェスへの書き込みを保留するルール：

{
  "priority": 20,
  "tool_name_glob": "payments.*",
  "verdict": "pending_approval"
}

まずこれをシャドウモードでロールアウトします — pending_approval は audit に格下げされるため、エージェントを実際にブロックすることなく、どの呼び出しが保留されるかを見られます。フィードが正しく見えたらシャドウをオフにします。

5. エージェントに期限切れするキーを与える

すべてのポリシーより長生きするコントロールは、キーそのものです。自律エージェントは、あなたのデフォルトのキーではなく、スコープされたキーを得るべきです。発行時に次のフィールドを設定します（コンソール → keys、またはトークン API）：

フィールド	設定値	理由
`expired_time`	Unix タイムスタンプ	実験が終わる；キーもそれとともに死ぬ。`-1` は無期限 — ここでは使わない。
`credit_limit_usd`	ドル上限	run 上限とは独立したキーへの支出上限。`0` は無制限。
`firewall_policy_id`	上記のポリシー	cap_cost + 承認ルールをこのキーにバインドする。
`allow_ips`	エージェントの egress IP	漏洩したキーは他のどこからも役立たない。

environment タグも設定して、キー — そしてそれが Events と Matches で行うすべて — がこのエージェントに帰属できるようにします。期限切れし、クレジット上限があり、IP 固定のキーが最後の防衛線です：たとえすべてのポリシーが何らかの形でバイパスされても、爆発半径は時間とドルによって境界づけられます。

キー設定はコンソール / トークン API のアクションであり、ロールゲートされています。ファイアウォールゲートウェイキーの平文を読むには Admin+ が必要です。

6. 組み合わせる

強化された自律エージェントは、1 つのファイアウォールポリシーと 1 つのスコープキーに落ち着きます：

レイヤー	コントロール	捕捉するもの
予算	`cap_cost` ルール、run スコープ	暴走ループ、デニアル・オブ・ウォレット
振る舞い	異常フィード（rate / burn / retry / novel）	奇妙だが許可されたもの
信頼	破壊的ツールへの `pending_approval`	不可逆なアクション
スコープ	期限切れ・クレジット上限・IP 固定のキー	忘れられた、または漏洩したキー

予算ルールと承認ルールを一緒に作成し、ファイアウォールルールで run ごとの上限を設定し、サーフェス、判定、可観測性についてはファイアウォールリファレンスの残りを読んでください。このレシピが防御する関連脅威については、過剰なエージェンシー、危険なツール呼び出し、デニアル・オブ・ウォレットを参照してください。

7. 次のステップ

MCP エージェントを強化する

MCP サーバー経由でツールに到達するエージェントを統制します。

持ち出しを止める

自分で URL を取得するエージェントのための egress ルール。

強制モード

Observe → shadow → enforce、安全なロールアウト。

ファイアウォールルール

上記のすべてのルールの背後にあるマッチング言語。

​1. セキュアな自律エージェントのレシピ

ハードなコスト上限

スパイク検出

危険な呼び出しへの承認

期限切れするキー

​2. すべての run のコストに上限をかける

​3. 学習されたベースラインに対してスパイクを検出する

​4. 危険な呼び出しを人間のために保留する

​5. エージェントに期限切れするキーを与える

​6. 組み合わせる

​7. 次のステップ

MCP エージェントを強化する

持ち出しを止める

強制モード

ファイアウォールルール

1. セキュアな自律エージェントのレシピ

2. すべての run のコストに上限をかける

3. 学習されたベースラインに対してスパイクを検出する

4. 危険な呼び出しを人間のために保留する

5. エージェントに期限切れするキーを与える

6. 組み合わせる

7. 次のステップ