Restringir una clave a modelos específicos

Una sola clave API puede alcanzar cada modelo al que tu espacio de trabajo tiene derecho. Eso es conveniente para una sesión de consola y peligroso para un agente de larga duración: un agente con inyección de prompts que sostiene una clave sin restricción puede cambiar silenciosamente de gpt-4o-mini al modelo más caro al que tienes acceso, o a uno cuyo manejo de datos nunca aprobaste. La solución es una lista de modelos permitidos por clave. Cada clave lleva un campo model_limits (controlado por model_limits_enabled). Cuando está activado, una solicitud de cualquier modelo que no esté en la lista se rechaza en el gateway — antes de que se seleccione un canal y antes de que algo salga hacia un proveedor.

Esta es una restricción del objeto clave. Se compone con la lista de IPs permitidas, el tope de gasto, la expiración y la guardrail / política de firewall adjunta de la clave — cada uno estrecha la clave de manera independiente.

1. Por qué restringir el acceso a modelos por clave API

La elección de modelo es una palanca de agencia. Una clave que puede llamar a cualquier modelo puede ser dirigida a:

Explosiones de coste — cambiar a un modelo premium multiplica la factura por token.
Deriva de capacidad — una tarea con alcance para un modelo pequeño se enruta a un modelo frontera que puede hacer mucho más de lo que pretendías.
Deriva de cumplimiento — enviar tráfico a una familia de modelos que no has aprobado para una clase de datos dada.

Restringir una clave a los uno o dos modelos que un agente realmente necesita cierra los tres a la vez. Es el equivalente, en el eje de modelo, a que el firewall haga lista de permitidos de herramientas — el agente solo puede alcanzar lo que nombraste, y nada más.

2. Los dos campos

Los límites de modelo viven en la clave como un par:

Campo	Tipo	Significado
`model_limits_enabled`	bool	Interruptor maestro. Cuando es `false`, la clave alcanza cada modelo que el espacio de trabajo permite.
`model_limits`	list	La lista de permitidos de nombres de modelo. Solo tiene sentido cuando `model_limits_enabled` es `true`.

Los dos campos son independientes, y la combinación importa: model_limits_enabled = true con una lista vacía significa que la clave no puede alcanzar ningún modelo — cada solicitud se rechaza con “This token has no access to any models.” Activa el interruptor solo una vez que hayas nombrado al menos un modelo.

3. Establecerlo en una clave

Configura los límites de modelo en el editor de claves de la consola (/console/token), el mismo lugar donde estableces las otras restricciones de la clave. Crear o editar una clave requiere el rol Developer o superior.

Abre la clave (o Create key).
Habilita Model limits.
Elige los modelos que esta clave puede llamar — escribe para filtrar los modelos disponibles del espacio de trabajo.
Guarda. El cambio surte efecto en la siguiente solicitud de la clave — sin redespliegue, sin rotación de clave.

Un resumidor programado que solo debería tocar un modelo barato termina con una lista de permitidos de exactamente una entrada:

model_limits_enabled: true
model_limits:         ["openai/gpt-4o-mini"]

A partir de ese punto la clave queda fijada a gpt-4o-mini. Cualquier otro nombre de modelo en una solicitud de esta clave se rechaza — no hay fallback a un modelo por defecto ni una degradación silenciosa.

Combina los límites de modelo con un tope credit_limit_usd en la misma clave. La lista de modelos acota qué modelo puede alcanzar un bucle descontrolado; el tope de gasto acota cuánto puede quemar antes de que la clave deje de funcionar. Dos techos independientes, ambos aplicados en el gateway. Ver Cuota, tope y expiración.

4. Cómo se ve una solicitud rechazada

Cuando model_limits_enabled está activado y una solicitud nombra un modelo fuera de la lista, el gateway aborta la solicitud con HTTP 403 y un cuerpo de error con forma de OpenAI:

{
  "error": {
    "message": "This token has no access to model claude-opus-4-8 (request id: 2024...abc)",
    "type": "orcarouter_api_error",
    "code": ""
  }
}

Propiedades clave del rechazo:

Ocurre antes de la selección de proveedor

La verificación se ejecuta mientras el gateway aún está eligiendo un canal — la solicitud nunca llega a un proveedor upstream, así que un modelo prohibido no cuesta tokens de modelo.

Lista vacía = ningún modelo

Con el interruptor activado y una lista de permitidos vacía, el mensaje es “This token has no access to any models” y cada solicitud se rechaza. Esta es la diferencia entre “restringir a una lista” y “bloquear la clave fuera de la inferencia por completo”.

La coincidencia es sobre el nombre canónico del modelo

El nombre de modelo de la solicitud se normaliza antes de verificar la lista, así que variantes relacionadas (p. ej. variantes de thinking) se resuelven al mismo nombre canónico que pusiste en la lista de permitidos. Lista el nombre de modelo base que la consola te muestra.

5. Límites de modelo vs. derechos de grupo

Dos cosas diferentes deciden si una clave puede llamar a un modelo. No las confundas:

Capa	Alcance	Pregunta que responde
Derecho del espacio de trabajo	Espacio de trabajo	¿Está este modelo disponible para el espacio de trabajo en absoluto?
`model_limits`	Clave individual	De los modelos disponibles, ¿cuáles puede usar ESTA clave?

model_limits solo estrecha. Una clave no puede usar los límites de modelo para alcanzar un modelo al que el propio espacio de trabajo no tiene derecho — solo puede tallar una lista de permitidos más pequeña de lo que ya está permitido. Para conceder a una clave nada extra sino estrictamente menos, para eso es exactamente este campo.

6. Dónde encaja esto en la postura de mínima agencia

Los límites de modelo son una línea de la receta de clave por agente. La clave útil más estrecha para un agente autónomo fija todos sus ejes a la vez:

model_limits — los uno o dos modelos que el agente necesita (esta página).
allow_ips — el rango de egress del agente, ver Lista de IPs permitidas.
credit_limit_usd — un techo de gasto, ver Cuota, tope y expiración.
expired_time — una expiración automática, ver Claves que expiran.
guardrail_id / firewall_policy_id — política de contenido y de llamadas a herramienta, ver Vincular políticas a una clave.

Cuando tal clave se ve comprometida vía inyección de prompts, el radio de explosión queda acotado en cada eje — incluyendo en qué modelos el atacante puede gastar tu presupuesto.

Los límites de modelo son una restricción de identidad en la clave, no una política de contenido o acción. No examinan prompts (eso es Guardrails) ni llamadas a herramienta (eso es el Firewall) — deciden, de antemano, a qué modelo la clave tiene siquiera permitido dirigirse.

7. Próximos pasos

El objeto clave

Cada campo que lleva una clave — límites de modelo, lista de IPs, topes, expiración y adjuntos de política — en una referencia.

Lista de verificación de mínima agencia

La receta completa de clave por agente: da alcance a cada eje al mínimo que el agente necesita.

Alcance, claves y políticas

Cómo se vinculan claves, guardrails y políticas de firewall en una identidad de agente.

Vincular políticas a una clave

Adjunta una guardrail y una política de firewall a la misma clave.

Restringir el acceso a modelos por clave API es el control de agencia más barato que puedes aplicar: una lista de permitidos, aplicada en el gateway, que ningún agente comprometido puede esquivar hablando.

​1. Por qué restringir el acceso a modelos por clave API

​2. Los dos campos

​3. Establecerlo en una clave

​4. Cómo se ve una solicitud rechazada

​5. Límites de modelo vs. derechos de grupo

​6. Dónde encaja esto en la postura de mínima agencia

​7. Próximos pasos

El objeto clave

Lista de verificación de mínima agencia

Alcance, claves y políticas

Vincular políticas a una clave

1. Por qué restringir el acceso a modelos por clave API

2. Los dos campos

3. Establecerlo en una clave

4. Cómo se ve una solicitud rechazada

5. Límites de modelo vs. derechos de grupo

6. Dónde encaja esto en la postura de mínima agencia

7. Próximos pasos