gpt-4o-mini al
modelo más caro al que tienes acceso, o a uno cuyo manejo de datos nunca
aprobaste.
La solución es una lista de modelos permitidos por clave. Cada clave lleva
un campo model_limits (controlado por model_limits_enabled). Cuando está
activado, una solicitud de cualquier modelo que no esté en la lista se
rechaza en el gateway — antes de que se seleccione un canal y antes de que algo
salga hacia un proveedor.
Esta es una restricción del objeto clave. Se
compone con la lista de IPs permitidas, el tope de gasto, la expiración y la
guardrail / política de firewall adjunta de la clave — cada uno estrecha la
clave de manera independiente.
1. Por qué restringir el acceso a modelos por clave API
La elección de modelo es una palanca de agencia. Una clave que puede llamar a cualquier modelo puede ser dirigida a:- Explosiones de coste — cambiar a un modelo premium multiplica la factura por token.
- Deriva de capacidad — una tarea con alcance para un modelo pequeño se enruta a un modelo frontera que puede hacer mucho más de lo que pretendías.
- Deriva de cumplimiento — enviar tráfico a una familia de modelos que no has aprobado para una clase de datos dada.
2. Los dos campos
Los límites de modelo viven en la clave como un par:| Campo | Tipo | Significado |
|---|---|---|
model_limits_enabled | bool | Interruptor maestro. Cuando es false, la clave alcanza cada modelo que el espacio de trabajo permite. |
model_limits | list | La lista de permitidos de nombres de modelo. Solo tiene sentido cuando model_limits_enabled es true. |
3. Establecerlo en una clave
Configura los límites de modelo en el editor de claves de la consola (/console/token), el mismo lugar donde estableces las otras restricciones de
la clave. Crear o editar una clave requiere el rol Developer o superior.
- Abre la clave (o Create key).
- Habilita Model limits.
- Elige los modelos que esta clave puede llamar — escribe para filtrar los modelos disponibles del espacio de trabajo.
- Guarda. El cambio surte efecto en la siguiente solicitud de la clave — sin redespliegue, sin rotación de clave.
gpt-4o-mini. Cualquier otro
nombre de modelo en una solicitud de esta clave se rechaza — no hay fallback a
un modelo por defecto ni una degradación silenciosa.
4. Cómo se ve una solicitud rechazada
Cuandomodel_limits_enabled está activado y una solicitud nombra un modelo
fuera de la lista, el gateway aborta la solicitud con HTTP 403 y un cuerpo
de error con forma de OpenAI:
Ocurre antes de la selección de proveedor
Ocurre antes de la selección de proveedor
La verificación se ejecuta mientras el gateway aún está eligiendo un canal —
la solicitud nunca llega a un proveedor upstream, así que un modelo prohibido
no cuesta tokens de modelo.
Lista vacía = ningún modelo
Lista vacía = ningún modelo
Con el interruptor activado y una lista de permitidos vacía, el mensaje es
“This token has no access to any models” y cada solicitud se rechaza.
Esta es la diferencia entre “restringir a una lista” y “bloquear la clave
fuera de la inferencia por completo”.
La coincidencia es sobre el nombre canónico del modelo
La coincidencia es sobre el nombre canónico del modelo
El nombre de modelo de la solicitud se normaliza antes de verificar la lista,
así que variantes relacionadas (p. ej. variantes de thinking) se resuelven al
mismo nombre canónico que pusiste en la lista de permitidos. Lista el nombre
de modelo base que la consola te muestra.
5. Límites de modelo vs. derechos de grupo
Dos cosas diferentes deciden si una clave puede llamar a un modelo. No las confundas:| Capa | Alcance | Pregunta que responde |
|---|---|---|
| Derecho del espacio de trabajo | Espacio de trabajo | ¿Está este modelo disponible para el espacio de trabajo en absoluto? |
model_limits | Clave individual | De los modelos disponibles, ¿cuáles puede usar ESTA clave? |
model_limits solo estrecha. Una clave no puede usar los límites de modelo
para alcanzar un modelo al que el propio espacio de trabajo no tiene derecho —
solo puede tallar una lista de permitidos más pequeña de lo que ya está
permitido. Para conceder a una clave nada extra sino estrictamente menos,
para eso es exactamente este campo.
6. Dónde encaja esto en la postura de mínima agencia
Los límites de modelo son una línea de la receta de clave por agente. La clave útil más estrecha para un agente autónomo fija todos sus ejes a la vez:model_limits— los uno o dos modelos que el agente necesita (esta página).allow_ips— el rango de egress del agente, ver Lista de IPs permitidas.credit_limit_usd— un techo de gasto, ver Cuota, tope y expiración.expired_time— una expiración automática, ver Claves que expiran.guardrail_id/firewall_policy_id— política de contenido y de llamadas a herramienta, ver Vincular políticas a una clave.
Los límites de modelo son una restricción de identidad en la clave, no una
política de contenido o acción. No examinan prompts (eso es
Guardrails) ni llamadas a herramienta (eso es el
Firewall) — deciden, de antemano, a qué modelo la clave
tiene siquiera permitido dirigirse.
7. Próximos pasos
El objeto clave
Cada campo que lleva una clave — límites de modelo, lista de IPs, topes,
expiración y adjuntos de política — en una referencia.
Lista de verificación de mínima agencia
La receta completa de clave por agente: da alcance a cada eje al mínimo que
el agente necesita.
Alcance, claves y políticas
Cómo se vinculan claves, guardrails y políticas de firewall en una identidad
de agente.
Vincular políticas a una clave
Adjunta una guardrail y una política de firewall a la misma clave.
