无限 vs 有界密钥：设置一个 API 密钥配额

一个没有天花板的密钥是一个一旦智能体进入循环就能耗尽你整个工作区余额的密钥。限定一个被攻陷或失控智能体影响半径的单一最有效方式，就是给它的密钥一个花费上限。在托管网关上，每个密钥要么无限，要么被一个以美元计量的api 密钥配额所有界——而这个选择是密钥编辑器中的一个字段。本页解释这两种模式、上限在中继路径上如何被执行，以及何时选哪一个。关于一个密钥携带的全套约束——模型允许列表、IP 允许列表、策略附加项——参见令牌对象。

1. 两种模式

每个密钥恰好解析为两种状态之一：

无限

unlimited_quota = true。该密钥从工作区余额中支取，没有按密钥的天花板。请求时不运行花费检查——唯一的限制是工作区自身的余额。

有界

credit_limit_usd > 0。该密钥携带它自己的、以 USD 计的终身花费上限。一旦累积花费达到上限，密钥就停止工作——工作区的其余部分毫发无损。

你在控制台的 Keys 界面（/console/token）中设置这个。创建或编辑一个密钥需要 Developer 角色或以上。

credit_limit_usd = 0 意味着无限——零是 “无上限” 的哨兵值，而非 “一个零美元上限”。要限定一个密钥，给它一个正的美元数额。

2. 一个 api 密钥配额如何被执行

当你把 credit_limit_usd 设为一个正数时，网关把它转换成那个密钥的一个内部 remain_quota 余额，并把 unlimited_quota 翻转为 false。从那以后：

remain_quota 是密钥的剩余花费余量，随着密钥计费用量而被扣减。
used_quota 是密钥已经记账的累积花费。
在每个中继调用上，网关在转发请求之前检查密钥。一个 remain_quota 已到达零的有界密钥被作为已耗尽拒绝——该调用从不触及模型。

一个无限密钥（unlimited_quota = true）完全跳过那个余额检查；它只被工作区余额以及你设置的任何其他密钥级限制（模型允许列表、 IP 允许列表、到期）所限定。

一个有界密钥是一个终身上限，而非一个滚动的月度预算——该上限统计密钥一生中的总花费。对于一个会重置的预算，按你自己的节奏（例如每个 sprint 一个新密钥）签发一个全新的有界密钥并吊销旧的那个。参见管理密钥。

3. 一个具体的例子

假设你正在部署一个定时汇总智能体，并且你想保证无论模型做什么它都永远不能花超过 $25。在你创建密钥时设置上限：

// POST 到控制台 Keys 界面（Developer+）。
// 在控制台中配置 —— 中继密钥（sk-orca-…）从不用于
// 管理密钥；它只在 /v1/* 推理调用上被出示。
{
  "name": "nightly-summarizer",
  "credit_limit_usd": 25,        // 有界：$25 终身上限
  "model_limits_enabled": true,
  "model_limits": ["openai/gpt-4o-mini"],
  "expired_time": -1             // -1 = 永不到期
}

网关把它存为一个有界密钥：unlimited_quota = false 以及一个价值

25 的 `remain_quota`。智能体照常用 `sk-orca-…` 中继密钥 调用模型。累积花费触及

25 的那一刻，该密钥被耗尽，且每个后续 /v1/* 调用都被拒绝——无需你盯着一个仪表盘，也不触及工作区的其余部分。要让同一个密钥之后变为无限，编辑它并翻转 unlimited 开关—— 控制台一起设置 unlimited_quota = true 和 credit_limit_usd = 0，于是该密钥可以再次从完整的工作区余额中支取。

4. 选哪种模式

智能体 / 自动化密钥 → 有界

任何交给一个自治智能体、一个 CI 作业或一个第三方集成的密钥都应当有界。一个花费上限是最廉价的保证，使一个提示注入循环或一场重试风暴无法跑出一个无界账单——该上限会在损害复利之前就停住密钥。把它与一个收紧的模型限制和一个 IP 允许列表配对。

短寿命 / 实验密钥 → 有界 + 到期

对于一个只为一次演示、一次压测或单次部署而存在的密钥，把一个小的 credit_limit_usd 与一个 expired_time 结合。密钥会在它先触及的那个限制上自行退役。参见配额上限与到期和到期密钥。

受信任的内部 / 高吞吐密钥 → 无限

一个由你完全掌控的核心生产服务所使用、且按密钥的上限只会造成虚假中断的密钥，可以保持无限——工作区余额是后盾。把这些密钥保持得很少，给它们清晰命名，并仍然用模型和 IP 限制为它们限定范围。

一个在运行中途耗尽的有界密钥会立即开始拒绝调用。那正是要点 ——但它意味着一个无人看管的智能体可能在一个作业进行到一半时停下。为你预期的工作量设定上限大小，并在控制台的使用视图中关注花费，使你能在它咬到一次合法运行之前抬高上限。

5. 上限字段如何关联

治理这件事的三个字段是一个带派生余额的单一开关——你设置美元上限，网关派生其余的：

字段	含义
`credit_limit_usd`	你的输入。`> 0` = 以 USD 计的有界上限；`0` = 无限。
`unlimited_quota`	当密钥没有上限时为 `true`；当你给一个正的 `credit_limit_usd` 时自动设为 `false`。
`remain_quota`	一个有界密钥的派生花费余量；到达零会耗尽该密钥。

你在编辑器中永远只设置 credit_limit_usd（或 unlimited_quota）。 remain_quota 和 used_quota 由网关随密钥计费用量而维护—— 它们是只读遥测，在控制台的使用视图中呈现。

6. 它在控制栈中的位置

一个花费上限限定一个密钥能做多少；密钥范围的其余部分限定它 能做什么。两者组合：

配额上限与到期

把一个美元上限与一个绝对到期结合，使一个密钥在它先触及的那个限制上自行退役。

令牌对象

一个密钥携带的每个字段——模型限制、IP 允许列表、策略附加项、环境标签——汇于一处参考。

最小权限检查清单

一次一个约束地得到尽可能最狭窄密钥的完整配方。

范围、密钥与策略

上限如何契合工作区 → 策略 → 密钥层级，以及限定一个密钥如何缩小影响半径。

每个密钥的花费上限越窄，任何一个被攻陷智能体能跑出的账单就越小——而你对每个密钥被授权花费什么的审计追踪也越清晰。

​1. 两种模式

无限

有界

​2. 一个 api 密钥配额如何被执行

​3. 一个具体的例子

​4. 选哪种模式

​5. 上限字段如何关联

​6. 它在控制栈中的位置

配额上限与到期

令牌对象

最小权限检查清单

范围、密钥与策略

1. 两种模式

2. 一个 api 密钥配额如何被执行

3. 一个具体的例子

4. 选哪种模式

5. 上限字段如何关联

6. 它在控制栈中的位置