gpt-4o-mini para o modelo mais caro a que você
tem acesso, ou para um cujo tratamento de dados você nunca aprovou.
A correção é uma allow-list de modelos por chave. Cada chave carrega um
campo model_limits (controlado por model_limits_enabled). Quando está
ligado, uma requisição a qualquer modelo que não esteja na lista é rejeitada
no gateway — antes que um canal seja selecionado e antes que algo saia para um
provedor.
Esta é uma restrição no objeto da chave. Ela
compõe com a allow-list de IP da chave, o limite de gasto, a expiração e o
guardrail / política de firewall anexado — cada um estreita a chave
independentemente.
1. Por que restringir o acesso a modelos por chave de API
A escolha de modelo é uma alavanca de agência. Uma chave que pode chamar qualquer modelo pode ser direcionada para:- Explosões de custo — trocar para um modelo premium multiplica a conta por token.
- Capability creep — uma tarefa com escopo para um modelo pequeno é roteada para um modelo de fronteira que pode fazer muito mais do que você pretendia.
- Deriva de compliance — enviar tráfego para uma família de modelos que você não liberou para uma dada classe de dados.
2. Os dois campos
Os limites de modelo vivem na chave como um par:| Campo | Tipo | Significado |
|---|---|---|
model_limits_enabled | bool | Interruptor mestre. Quando false, a chave alcança todos os modelos que o workspace permite. |
model_limits | list | A allow-list de nomes de modelo. Só significativa quando model_limits_enabled é true. |
3. Definir em uma chave
Configure os limites de modelo no editor de chave do console (/console/token), o mesmo lugar onde você define as outras restrições da
chave. Criar ou editar uma chave exige o papel de Developer ou superior.
- Abra a chave (ou Create key).
- Habilite Model limits.
- Escolha os modelos que esta chave pode chamar — digite para filtrar os modelos disponíveis do workspace.
- Salve. A mudança entra em vigor na próxima requisição da chave — sem redeploy, sem rotação de chave.
gpt-4o-mini. Qualquer outro nome
de modelo em uma requisição desta chave é rejeitado — não há fallback para um
modelo padrão e nenhum downgrade silencioso.
4. Como é uma requisição rejeitada
Quandomodel_limits_enabled está ligado e uma requisição nomeia um modelo
fora da lista, o gateway aborta a requisição com HTTP 403 e um corpo de erro
no formato OpenAI:
Acontece antes da seleção de provedor
Acontece antes da seleção de provedor
A verificação roda enquanto o gateway ainda está escolhendo um canal — a
requisição nunca chega a um provedor upstream, então um modelo proibido não
custa nenhum token de modelo.
Lista vazia = nenhum modelo
Lista vazia = nenhum modelo
Com o interruptor ligado e uma allow-list vazia, a mensagem é “This token
has no access to any models” e cada requisição é rejeitada. Esta é a
diferença entre “restringir a uma lista” e “trancar a chave totalmente fora
da inferência.”
A correspondência é no nome canônico do modelo
A correspondência é no nome canônico do modelo
O nome do modelo da requisição é normalizado antes de a lista ser
verificada, então variantes relacionadas (ex.: variantes de thinking)
resolvem para o mesmo nome canônico que você colocou na allow-list. Liste o
nome do modelo base que o console lhe mostra.
5. Limites de modelo vs. direitos de grupo
Duas coisas diferentes decidem se uma chave pode chamar um modelo. Não as confunda:| Camada | Escopo | Pergunta que responde |
|---|---|---|
| Direito do workspace | Workspace | Este modelo está disponível para o workspace de forma alguma? |
model_limits | Chave única | Dos modelos disponíveis, quais ESTA chave pode usar? |
model_limits só estreita. Uma chave não pode usar limites de modelo para
alcançar um modelo a que o próprio workspace não tem direito — ela só pode
recortar uma allow-list menor do que já é permitido. Para conceder a uma chave
nada extra mas estritamente menos, é exatamente para isso que este campo
serve.
6. Onde isso se encaixa na postura de menor agência
Os limites de modelo são uma linha da receita de chave por agente. A chave útil mais estreita para um agente autônomo fixa todos os seus eixos de uma vez:model_limits— o um ou dois modelos que o agente precisa (esta página).allow_ips— a faixa de egress do agente, veja Lista de permissão de IP.credit_limit_usd— um teto de gasto, veja Cota, limite e expiração.expired_time— uma expiração automática, veja Chaves que expiram.guardrail_id/firewall_policy_id— política de conteúdo e de chamada de ferramenta, veja Vincular políticas a uma chave.
Os limites de modelo são uma restrição de identidade na chave, não uma
política de conteúdo ou de ação. Eles não inspecionam prompts (isso é
Guardrails) nem chamadas de ferramenta (isso é o
Firewall) — eles decidem, antecipadamente, qual modelo
a chave tem permissão sequer de endereçar.
7. Próximos passos
O objeto da chave
Cada campo que uma chave carrega — limites de modelo, lista de IP, limites,
expiração e anexos de política — em uma referência.
Checklist de menor agência
A receita completa de chave por agente: dê escopo a cada eixo ao mínimo de
que o agente precisa.
Escopo, chaves e políticas
Como chaves, guardrails e políticas de firewall se vinculam em uma única
identidade de agente.
Vincular políticas a uma chave
Anexe um guardrail e uma política de firewall à mesma chave.
