Saltar al contenido principal
Una clave sin techo es una clave que puede drenar todo el saldo de tu espacio de trabajo si un agente entra en bucle. La forma más eficaz de acotar el radio de explosión de un agente comprometido o descontrolado es darle a su clave un tope de gasto. En el gateway alojado cada clave es ilimitada o acotada por una cuota de clave API medida en dólares estadounidenses — y la elección es un campo en el editor de claves. Esta página explica los dos modos, cómo se aplica el tope en la ruta de relay, y cuándo elegir cuál. Para el conjunto completo de restricciones que lleva una clave — listas de permitidos de modelo, listas de permitidos de IP, adjuntos de política — ver El objeto token.

1. Los dos modos

Cada clave se resuelve a exactamente uno de dos estados:

Ilimitada

unlimited_quota = true. La clave se nutre del saldo del espacio de trabajo sin techo por clave. No se ejecuta ninguna verificación de gasto en tiempo de solicitud — el único límite es el propio saldo del espacio de trabajo.

Acotada

credit_limit_usd > 0. La clave lleva su propio tope de gasto de por vida en USD. Una vez que el gasto acumulado alcanza el tope, la clave deja de funcionar — el resto del espacio de trabajo queda intacto.
Esto lo estableces en la pantalla Keys de la consola (/console/token). Crear o editar una clave requiere el rol Developer o superior.
credit_limit_usd = 0 significa ilimitado — cero es el centinela para “sin tope”, no “un tope de cero dólares”. Para acotar una clave, dale una cantidad positiva en dólares.

2. Cómo se aplica una cuota de clave API

Cuando estableces credit_limit_usd a un número positivo, el gateway lo convierte en un saldo interno de remain_quota para esa clave y cambia unlimited_quota a false. A partir de entonces:
  • remain_quota es el margen de gasto restante de la clave, reducido a medida que la clave factura uso.
  • used_quota es el gasto acumulado que la clave ya ha registrado.
  • En cada llamada de relay, el gateway verifica la clave antes de reenviar la solicitud. Una clave acotada cuyo remain_quota ha llegado a cero se rechaza como exhausted — la llamada nunca alcanza el modelo.
Una clave ilimitada (unlimited_quota = true) omite esa verificación de saldo por completo; está acotada solo por el saldo del espacio de trabajo y por cualquier otro límite a nivel de clave que establezcas (lista de permitidos de modelo, lista de permitidos de IP, expiración).
Una clave acotada es un tope de por vida, no un presupuesto mensual rotativo — el tope cuenta el gasto total a lo largo de la vida de la clave. Para un presupuesto que se reinicia, emite una clave acotada nueva a tu propio ritmo (p. ej. una nueva clave por sprint) y revoca la vieja. Ver Gestionar claves.

3. Un ejemplo concreto

Supón que estás desplegando un agente de resumen programado y quieres garantizar que nunca pueda gastar más de $25 sin importar lo que haga el modelo. Establece el tope cuando creas la clave:
// POST a la pantalla Keys de la consola (Developer+).
// Configura en la consola — la clave de relay (sk-orca-…) nunca se usa para
// administrar claves; solo se presenta en las llamadas de inferencia /v1/*.
{
  "name": "nightly-summarizer",
  "credit_limit_usd": 25,        // acotada: tope de $25 de por vida
  "model_limits_enabled": true,
  "model_limits": ["openai/gpt-4o-mini"],
  "expired_time": -1             // -1 = nunca expira
}
El gateway lo almacena como una clave acotada: unlimited_quota = false y un remain_quota por valor de 25.Elagentellamaalmodeloconlaclavederelayskorcacomodecostumbre.Enelmomentoenqueelgastoacumuladoalcanza25. El agente llama al modelo con la clave de relay `sk-orca-…` como de costumbre. En el momento en que el gasto acumulado alcanza 25, la clave está agotada y toda llamada /v1/* posterior se rechaza — sin que tú vigiles un panel, y sin tocar el resto del espacio de trabajo. Para hacer la misma clave ilimitada más tarde, edítala y cambia el conmutador unlimited — la consola establece unlimited_quota = true y credit_limit_usd = 0 juntos, y la clave puede nutrirse del saldo completo del espacio de trabajo de nuevo.

4. Qué modo elegir

Cualquier clave entregada a un agente autónomo, un trabajo de CI o una integración de terceros debería ser acotada. Un tope de gasto es la garantía más barata de que un bucle de inyección de prompts o una tormenta de reintentos no pueda acumular una factura sin límites — el tope detiene la clave antes de que el daño se agrave. Combínala con un límite de modelo estricto y una lista de permitidos de IP.
Para una clave que existe solo para una demo, una prueba de carga o un único despliegue, combina un credit_limit_usd pequeño con un expired_time. La clave se auto-retira por el límite que alcance primero. Ver Tope de cuota y expiración y Claves expirantes.
Una clave usada por un servicio de producción central que controlas por completo, donde un tope por clave solo causaría cortes espurios, puede quedar ilimitada — el saldo del espacio de trabajo es el respaldo. Mantén estas claves pocas, nómbralas con claridad, y aun así acótalas con límites de modelo e IP.
Una clave acotada que se agota a mitad de ejecución empieza a rechazar llamadas de inmediato. Ese es el punto — pero significa que un agente desatendido puede detenerse a mitad de un trabajo. Dimensiona el tope para el trabajo que esperas, y vigila el gasto en las vistas de uso de la consola para poder subir el tope antes de que muerda una ejecución legítima.

5. Cómo se relacionan los campos de tope

Los tres campos que gobiernan esto son un único interruptor con un saldo derivado — estableces el tope en dólares, el gateway deriva el resto:
CampoSignificado
credit_limit_usdTu entrada. > 0 = tope acotado en USD; 0 = ilimitado.
unlimited_quotatrue cuando la clave no tiene tope; se establece a false automáticamente cuando das un credit_limit_usd positivo.
remain_quotaMargen de gasto derivado para una clave acotada; llegar a cero agota la clave.
Solo estableces credit_limit_usd (o unlimited_quota) en el editor. remain_quota y used_quota los mantiene el gateway a medida que la clave factura uso — son telemetría de solo lectura, expuesta en las vistas de uso de la consola.

6. Dónde se sitúa esto en la pila de controles

Un tope de gasto acota cuánto puede hacer una clave; el resto del alcance de la clave acota qué puede hacer. Los dos se componen:

Tope de cuota y expiración

Combina un tope en dólares con una expiración absoluta para que una clave se auto-retire por el límite que alcance primero.

El objeto token

Cada campo que lleva una clave — límites de modelo, lista de permitidos de IP, adjuntos de política, etiqueta de entorno — en una sola referencia.

Checklist de mínima agencia

La receta completa para la clave más estrecha posible, una restricción a la vez.

Alcance, claves y políticas

Cómo encaja el tope en la jerarquía espacio de trabajo → política → clave, y cómo acotar una clave encoge el radio de explosión.
Cuanto más estrecho sea el tope de gasto de cada clave, menor será la factura que cualquier agente comprometido pueda acumular — y más claro tu rastro de auditoría de cuánto estaba autorizada a gastar cada clave.