gpt-4o-mini на самую дорогую модель, к
которой у вас есть доступ, или на ту, чью обработку данных вы никогда не
одобряли.
Решение — список разрешённых моделей на каждый ключ. Каждый ключ несёт
поле model_limits (управляемое model_limits_enabled). Когда оно
включено, запрос к любой модели не из списка отклоняется на шлюзе —
до того как выбран канал и до того как что-либо уйдёт к провайдеру.
Это одно ограничение на объекте ключа.
Оно сочетается со списком разрешённых IP ключа, лимитом расходов, сроком
действия и привязанной политикой guardrail / firewall — каждое сужает ключ
независимо.
1. Зачем ограничивать доступ к моделям на каждый API-ключ
Выбор модели — рычаг полномочий. Ключ, который может вызвать любую модель, можно направить в:- Взрыв стоимости — переключение на премиум-модель умножает счёт за токен.
- Расползание возможностей — задача, ограниченная маленькой моделью, маршрутизируется на frontier-модель, которая может намного больше, чем вы задумывали.
- Дрейф комплаенса — отправка трафика в семейство моделей, которое вы не одобрили для данного класса данных.
2. Два поля
Лимиты моделей живут на ключе парой:| Поле | Тип | Значение |
|---|---|---|
model_limits_enabled | bool | Главный переключатель. Когда false, ключ дотягивается до каждой модели, которую разрешает рабочее пространство. |
model_limits | list | Список разрешённых имён моделей. Имеет смысл только когда model_limits_enabled равно true. |
3. Задайте это на ключе
Настройте лимиты моделей в редакторе ключа в консоли (/console/token),
там же, где вы задаёте остальные ограничения ключа. Создание или
редактирование ключа требует роли Developer или выше.
- Откройте ключ (или Create key).
- Включите Model limits.
- Выберите модели, которые этот ключ может вызывать — печатайте, чтобы отфильтровать доступные модели рабочего пространства.
- Сохраните. Изменение вступает в силу на следующем запросе ключа — без передеплоя, без ротации ключа.
gpt-4o-mini. Любое другое имя модели в
запросе от этого ключа отклоняется — нет отката к default-модели и нет
тихого понижения.
4. Как выглядит отклонённый запрос
Когдаmodel_limits_enabled включено и запрос называет модель вне списка,
шлюз прерывает запрос с HTTP 403 и телом ошибки в форме OpenAI:
Происходит до выбора провайдера
Происходит до выбора провайдера
Проверка выполняется, пока шлюз ещё выбирает канал — запрос никогда не
достигает вышестоящего провайдера, так что запрещённая модель не стоит
токенов модели.
Пустой список = нет моделей
Пустой список = нет моделей
С включённым переключателем и пустым списком разрешённых сообщение —
«This token has no access to any models» и каждый запрос
отклоняется. Это разница между «ограничить списком» и «полностью
отрезать ключ от инференса».
Сопоставление идёт по каноническому имени модели
Сопоставление идёт по каноническому имени модели
Имя модели в запросе нормализуется перед проверкой по списку, так что
связанные варианты (например, thinking-варианты) разрешаются в то же
каноническое имя, которое вы внесли в список. Указывайте базовое имя
модели, которое показывает консоль.
5. Лимиты моделей vs. права группы
Две разные вещи решают, может ли ключ вызвать модель. Не путайте их:| Слой | Область | На какой вопрос отвечает |
|---|---|---|
| Право рабочего пространства | Рабочее пространство | Доступна ли эта модель рабочему пространству вообще? |
model_limits | Один ключ | Из доступных моделей, какие может использовать ЭТОТ ключ? |
model_limits только сужает. Ключ не может использовать лимиты
моделей, чтобы дотянуться до модели, на которую само рабочее пространство
не имеет права — он может лишь вырезать меньший список разрешённых из того,
что уже позволено. Чтобы дать ключу ничего сверх, но строго меньше, —
это ровно то, для чего предназначено это поле.
6. Как это вписывается в позицию минимальных полномочий
Лимиты моделей — одна строка рецепта ключа на агента. Самый узкий полезный ключ для автономного агента закрепляет все его оси сразу:model_limits— одна-две модели, которые нужны агенту (эта страница).allow_ips— диапазон egress агента, см. Список разрешённых IP.credit_limit_usd— потолок расходов, см. Лимит квоты и срок действия.expired_time— автоматический срок действия, см. Истекающие ключи.guardrail_id/firewall_policy_id— политика содержимого и вызовов инструментов, см. Привязка политик к ключу.
Лимиты моделей — это ограничение идентичности на ключе, а не политика
содержимого или действий. Они не проверяют промпты (это
Guardrails) и не вызовы инструментов (это
Firewall) — они решают заранее, к какой модели
ключу вообще разрешено обращаться.
7. Дальнейшие шаги
Объект ключа
Каждое поле, которое несёт ключ — лимиты моделей, список IP, лимиты,
срок действия и привязки политик — в одном справочнике.
Чек-лист минимальных полномочий
Полный рецепт ключа на агента: ограничьте каждую ось до минимума,
который нужен агенту.
Область, ключи и политики
Как ключи, guardrails и политики firewall связываются в одну
идентичность агента.
Привязка политик к ключу
Прикрепите guardrail и политику firewall к одному ключу.
