メインコンテンツへスキップ
上限のないキーは、エージェントがループするとあなたのワークスペース残高全体を枯渇させ得る キーです。侵害された、あるいは暴走したエージェントの被害範囲を境界づける単独で最も効果的な 方法は、そのキーに支出上限を与えることです。ホスト型ゲートウェイでは、すべてのキーは 無制限であるか、米ドルで測られる API キークォータによって境界づけられるかの どちらかであり — その選択はキーエディタの 1 つのフィールドです。 このページは 2 つのモード、上限がリレーパスでどう強制されるか、そしてどちらを選ぶべきかを 説明します。キーが運ぶ制約の全集合 — モデル許可リスト、IP 許可リスト、ポリシー アタッチメント — については、トークンオブジェクトを参照 してください。

1. 2 つのモード

すべてのキーは、ちょうど 2 つの状態のいずれかに解決します:

無制限

unlimited_quota = true。キーはキーごとの上限なしにワークスペース残高を引き出します。 リクエスト時に支出チェックは実行されません — 唯一の制限はワークスペース自身の残高です。

境界づけ

credit_limit_usd > 0。キーは USD で独自の生涯支出上限を運びます。累積支出が上限に達すると、 キーは機能を停止します — ワークスペースの残りは無傷です。
これをコンソールの Keys 画面(/console/token)で設定します。キーの作成または編集には Developer ロール以上が必要です。
credit_limit_usd = 0無制限を意味します — ゼロは「ゼロドル上限」ではなく「上限なし」の センチネルです。キーを境界づけるには、正のドル金額を与えてください。

2. API キークォータがどう強制されるか

credit_limit_usd を正の数に設定すると、ゲートウェイはそれをそのキーの内部 remain_quota 残高に変換し、unlimited_quotafalse に切り替えます。それ以降:
  • remain_quota は、キーが使用量を課金するにつれて引き落とされる、キーの残り支出余地です。
  • used_quota は、キーがすでに計上した累積支出です。
  • すべてのリレー呼び出しで、ゲートウェイはリクエストを転送する前にキーをチェックします。 remain_quota がゼロに達した境界づけられたキーは、枯渇として拒否されます — 呼び出しは モデルに決して到達しません。
無制限のキー(unlimited_quota = true)はその残高チェックを完全にスキップします;それは ワークスペース残高と、あなたが設定した他のキーレベルの制限(モデル許可リスト、IP 許可リスト、 失効)によってのみ境界づけられます。
境界づけられたキーは生涯上限であり、ローリングの月次予算ではありません — 上限はキーの生涯に わたる総支出を数えます。リセットされる予算には、独自のペース(例:スプリントごとに新しいキー)で 新しい境界づけられたキーを発行し、古いものを取り消してください。 キーを管理を参照。

3. ひとつの具体例

スケジュール要約エージェントをデプロイしていて、モデルが何をしようと**$25** を超えて費やせない ことを保証したいとしましょう。キーを作成するときに上限を設定します:
// コンソールの Keys 画面に POST(Developer+)。
// コンソールで設定 — リレーキー(sk-orca-…)はキーの管理に決して使われず、
// /v1/* 推論呼び出しでのみ提示されます。
{
  "name": "nightly-summarizer",
  "credit_limit_usd": 25,        // 境界づけ:$25 生涯上限
  "model_limits_enabled": true,
  "model_limits": ["openai/gpt-4o-mini"],
  "expired_time": -1             // -1 = 決して失効しない
}
ゲートウェイはこれを境界づけられたキーとして保存します:unlimited_quota = false25相当のremainquota。エージェントはいつものようにskorcaリレーキーでモデルを呼びます。累積支出が25 相当の `remain_quota`。エージェントはいつものように `sk-orca-…` リレーキーでモデルを呼びます。累積 支出が 25 に達した瞬間、キーは枯渇し、それ以降のすべての /v1/* 呼び出しが拒否されます — あなたがダッシュボードを見ることなく、ワークスペースの残りに触れることなく。 後で同じキーを無制限にするには、それを編集して無制限トグルを切り替えます — コンソールは unlimited_quota = truecredit_limit_usd = 0 を一緒に設定し、キーは再び完全なワークスペース 残高を引き出せます。

4. どちらのモードを選ぶか

自律エージェント、CI ジョブ、あるいはサードパーティ統合に渡されるキーは、境界づけられる べきです。支出上限は、プロンプトインジェクションループや再試行の嵐が無境界の請求を積み上げ られないことの最も安価な保証です — 上限は被害が複利化する前にキーを止めます。それを厳しい モデル制限IP 許可リストとペアにしてください。
デモ、負荷テスト、あるいは単一のデプロイのためだけに存在するキーには、小さな credit_limit_usdexpired_time と組み合わせてください。キーは最初に当たった制限で 自己退役します。クォータ上限と失効失効するキーを参照。
あなたが完全に制御するコアの本番サービスが使うキーで、キーごとの上限がただ偽の障害を 引き起こすだけの場合、無制限のままでよい — ワークスペース残高がバックストップです。これらの キーを少数に保ち、明確に名付け、それでもモデルと IP の制限でスコープしてください。
実行の途中で枯渇した境界づけられたキーは、即座に呼び出しを拒否し始めます。それがポイントです — しかしそれは、放置されたエージェントがジョブの途中で停止し得ることを意味します。期待する作業に 合わせて上限のサイズを決め、コンソールの使用量ビューで支出を監視して、正当な実行に噛みつく前に 上限を引き上げられるようにしてください。

5. 上限フィールドがどう関係するか

これを統制する 3 つのフィールドは、派生残高を伴う単一のスイッチです — ドル上限を設定すると、 ゲートウェイが残りを導出します:
フィールド意味
credit_limit_usdあなたの入力。> 0 = USD での境界づけ上限;0 = 無制限。
unlimited_quotaキーに上限がないとき true;正の credit_limit_usd を与えると自動的に false に設定。
remain_quota境界づけられたキーの派生支出余地;ゼロに達するとキーを枯渇させます。
エディタで設定するのは credit_limit_usd(または unlimited_quota)だけです。remain_quotaused_quota は、キーが使用量を課金するにつれてゲートウェイによって維持されます — それらは 読み取り専用のテレメトリで、コンソールの使用量ビューに表示されます。

6. コントロールスタックにおける位置

支出上限はキーがどれだけできるかを境界づけ;キーのスコープの残りはキーが何をできるかを 境界づけます。この 2 つは組み合わさります:

クォータ上限と失効

ドル上限を絶対的な失効と組み合わせて、キーが最初に当たった制限で自己退役するようにします。

トークンオブジェクト

キーが運ぶすべてのフィールド — モデル制限、IP 許可リスト、ポリシーアタッチメント、environment ラベル — を 1 つのリファレンスに。

最小権限チェックリスト

可能な限り狭いキーのための完全なレシピ、一度に 1 つの制約。

スコープ、キー、ポリシー

上限がワークスペース → ポリシー → キーの階層にどうフィットするか、そしてキーを境界づけることが どのように被害範囲を縮めるか。
各キーの支出上限が狭いほど、どれかひとつの侵害されたエージェントが積み上げ得る請求は小さくなり — そして各キーが何を費やすことを認可されていたかの監査証跡は明確になります。