gpt-4o-mini vers le modèle le
plus cher auquel vous avez accès, ou vers un modèle dont vous n’avez jamais
approuvé le traitement des données.
Le correctif est une allow-list de modèles par clé. Chaque clé porte un
champ model_limits (gardé par model_limits_enabled). Quand il est activé, une
requête vers tout modèle absent de la liste est rejetée à la passerelle —
avant qu’un canal soit sélectionné et avant que quoi que ce soit ne parte vers
un fournisseur.
C’est une contrainte sur l’objet clé. Elle se
compose avec l’allow-list d’IP de la clé, le plafond de dépense, l’expiration, et
le guardrail / la politique firewall attachés — chacun rétrécit la clé
indépendamment.
1. Pourquoi restreindre l’accès aux modèles par clé API
Le choix du modèle est un levier d’agence. Une clé qui peut appeler n’importe quel modèle peut être orientée vers :- Explosions de coût — basculer vers un modèle premium multiplie la facture par token.
- Dérive de capacité — une tâche scopée pour un petit modèle est routée vers un modèle frontière qui peut faire bien plus que ce que vous aviez prévu.
- Dérive de conformité — envoyer du trafic vers une famille de modèles que vous n’avez pas validée pour une classe de données donnée.
2. Les deux champs
Les limites de modèles vivent sur la clé sous forme de paire :| Champ | Type | Signification |
|---|---|---|
model_limits_enabled | bool | Interrupteur maître. Quand false, la clé atteint chaque modèle que l’espace de travail autorise. |
model_limits | list | L’allow-list de noms de modèles. N’a de sens que lorsque model_limits_enabled est true. |
3. Le définir sur une clé
Configurez les limites de modèles dans l’éditeur de clé de la console (/console/token), au même endroit que les autres contraintes de la clé. Créer
ou modifier une clé requiert le rôle Developer ou supérieur.
- Ouvrez la clé (ou Créer une clé).
- Activez Limites de modèles.
- Choisissez les modèles que cette clé peut appeler — tapez pour filtrer les modèles disponibles de l’espace de travail.
- Enregistrez. Le changement prend effet à la prochaine requête de la clé — aucun redéploiement, aucune rotation de clé.
gpt-4o-mini. Tout autre nom de
modèle sur une requête de cette clé est rejeté — il n’y a aucun repli vers un
modèle par défaut et aucune rétrogradation silencieuse.
4. À quoi ressemble une requête rejetée
Lorsquemodel_limits_enabled est activé et qu’une requête nomme un modèle hors
de la liste, la passerelle avorte la requête avec HTTP 403 et un corps
d’erreur de forme OpenAI :
Il se produit avant la sélection du fournisseur
Il se produit avant la sélection du fournisseur
La vérification s’exécute pendant que la passerelle choisit encore un canal —
la requête n’atteint jamais un fournisseur amont, donc un modèle interdit ne
coûte aucun token de modèle.
Liste vide = aucun modèle
Liste vide = aucun modèle
Avec l’interrupteur activé et une allow-list vide, le message est « This
token has no access to any models » et chaque requête est rejetée.
C’est la différence entre « restreindre à une liste » et « verrouiller la clé
hors de l’inférence entièrement ».
La correspondance se fait sur le nom de modèle canonique
La correspondance se fait sur le nom de modèle canonique
Le nom de modèle de la requête est normalisé avant que la liste soit
vérifiée, de sorte que les variantes liées (par ex. variantes thinking) se
résolvent vers le même nom canonique que vous avez allow-listé. Listez le nom
du modèle de base que la console vous montre.
5. Limites de modèles vs. droits de groupe
Deux choses différentes décident si une clé peut appeler un modèle. Ne les confondez pas :| Couche | Portée | Question à laquelle elle répond |
|---|---|---|
| Droit d’espace de travail | Espace de travail | Ce modèle est-il disponible pour l’espace de travail tout court ? |
model_limits | Clé unique | Parmi les modèles disponibles, lesquels CETTE clé peut-elle utiliser ? |
model_limits ne fait jamais que rétrécir. Une clé ne peut pas utiliser les
limites de modèles pour atteindre un modèle auquel l’espace de travail lui-même
n’a pas droit — elle ne peut que tailler une allow-list plus petite dans ce qui
est déjà permis. Pour accorder à une clé rien de plus mais strictement moins,
c’est exactement à cela que sert ce champ.
6. Où cela s’inscrit dans la posture de moindre agence
Les limites de modèles sont une ligne de la recette de clé par agent. La clé utile la plus étroite pour un agent autonome épingle tous ses axes d’un coup :model_limits— les un ou deux modèles dont l’agent a besoin (cette page).allow_ips— la plage d’egress de l’agent, voir Allow-list d’IP.credit_limit_usd— un plafond de dépense, voir Quota, plafond & expiration.expired_time— une expiration automatique, voir Clés expirantes.guardrail_id/firewall_policy_id— politique de contenu et d’appels d’outils, voir Lier des politiques à une clé.
Les limites de modèles sont une contrainte d’identité sur la clé, pas une
politique de contenu ni d’action. Elles n’inspectent pas les prompts (c’est le
rôle des Guardrails) ni les appels d’outils (c’est le
rôle du Firewall) — elles décident, en amont, quel
modèle la clé est même autorisée à adresser.
7. Étapes suivantes
L'objet clé
Chaque champ qu’une clé porte — limites de modèles, liste d’IP, plafonds,
expiration et attachements de politique — dans une seule référence.
Checklist de moindre agence
La recette complète de clé par agent : scopez chaque axe au minimum dont
l’agent a besoin.
Portée, clés & politiques
Comment les clés, guardrails et politiques firewall se lient ensemble en une
seule identité d’agent.
Lier des politiques à une clé
Attacher un guardrail et une politique firewall à la même clé.
