1. Сценарий llm cost guardrail
Рычаг — один встроенный тип правила:max_chars. Он ограничивает
число символов текста на стадии. Нет вызова модели, нет сетевого
перехода — детерминированная проверка длины, которая выполняется на
запросе до тарификации или на ответе после возврата модели.
Две формы, выбираемые действием правила:
Блокировать слишком большие запросы
На правиле
max_chars для запроса с действием block любой промпт
сверх лимита отклоняется с HTTP 400 guardrail_blocked — и
заблокированный запрос не стоит квоты, потому что блокировка
срабатывает до тарификации использования.Обрезать слишком большие ответы
На правиле
max_chars с действием mask текст усекается до лимита
вместо отклонения — вызывающий всё равно получает пригодный ответ,
лишь ограниченный. Полезно на стадии ответа для ограничения egress.Лимит считает символы (с учётом рун —
日本語 это три, а не девять),
а не токены. Поставляемый токен-ориентированный пресет переводит
токеновый бюджет в символьный потолок по стандартному отношению
char→token; ужесточайте поле max_chars правила напрямую для более
строгого бюджета.2. Поставляемые пресеты cost
Откройте split-кнопку New guardrail в консоли и выберите из категории шаблонов cost. Три пресета засевают по одному правилуmax_chars:
| Пресет | Стадия · действие | Лимит |
|---|---|---|
| Prompt-Size Cap | input · block | 50 000 символов |
| Token Cost Cap (prompt) | input · block | 200 000 символов (~50K токенов) |
| Response Size Cap | output · block | 32 000 символов |
max_chars, стадию или действие под ваш бюджет.
Создание и редактирование guardrails требует Developer+ в рабочем
пространстве.
3. Создайте собственный лимит
Правило cost — простейшее правило в движке — стадия, действие и целое число. Чтобы ограничить запросы 20 000 символами и отклонить всё больше:max_chars должно быть
положительным целым; валидатор отклоняет 0 или отрицательные значения.
4. Протестируйте перед привязкой
Докажите, что лимит срабатывает там, где вы ожидаете, прежде чем на него укажет любой ключ. Откройте вкладку Test внутри редактора guardrail, вставьте образец, выберите стадиюinput и прогоните текущую политику
локально — без вышестоящего вызова, без квоты. Образец сверх лимита
возвращает заблокированный вердикт; образец под лимитом проходит
нетронутым.
Для правила-обрезки песочница показывает усечённый отрендеренный текст,
так что вы можете подтвердить, что лимит попадает на границу руны, прежде
чем на него полагаться.
5. Привяжите лимит к ключу
Cost-guardrail разрешается ровно как любой другой — привяжите его к API-ключу или установите default’ом рабочего пространства. Каждый шаг здесь — действие консоли под вашей собственной сессией.Сохраните guardrail
Создайте или откройте guardrail в консоли, добавьте правило
max_chars (или примените пресет cost) и сохраните.Привяжите ключ
Отредактируйте API-ключ и выберите guardrail из выпадающего списка
Guardrail (устанавливает
guardrail_id на ключе) или пометьте
guardrail default’ом рабочего пространства. См.
Привязка к ключу и
Default аккаунта.6. Что стоит заблокированный запрос
Лимит на стадии запроса — самый дешёвый guardrail для применения: он выполняется до тарификации использования, так что слишком большой промпт отклоняется с нулевой стоимостью квоты.Стоит ли заблокированный слишком большой запрос квоты?
Стоит ли заблокированный слишком большой запрос квоты?
Нет. Блокировка на стадии input срабатывает до тарификации.
Блокировка на стадии output возвращает предварительно списанную квоту
после отклонения ответа. В любом случае вызывающий не платит квотой,
получает HTTP 400
guardrail_blocked, и запрос помечается
skip-retry — повторный прогон того же слишком большого промпта
просто снова заблокировался бы. См.
ошибку guardrail_blocked.Применяется ли лимит ответа на стриминге?
Применяется ли лимит ответа на стриминге?
max_chars block на стадии output применяется в обоих случаях:
на нестриминговом ответе ответ проверяется до того, как вернётся, а
на стриминговом ответе сканер режет поток на лету, как только буфер
пересечёт лимит. Mask (обрезка) на output сейчас применяется
только к нестриминговым ответам. См.
Покрытие стриминга.Показывает ли правило cost совпавший текст в ленте?
Показывает ли правило cost совпавший текст в ленте?
Нет. У правила
max_chars нет концепта подстроки, так что
лента Matches записывает, что
лимит сработал — его тип, действие и стадию — но никогда совпавшую
подстроку, даже с включённым Log raw content. Вы получаете сигнал
что он сработал без перезахвата слишком большой полезной нагрузки.7. Где это вписывается
Лимитmax_chars — грубый рычаг стоимости — жёсткий потолок, а не бюджет
расходов на ключ. Чтобы ограничить доллары, а не символы, установите
credit_limit_usd на самом API-ключе (0 = без лимита), который шлюз
применяет независимо от любого guardrail. Они складываются стопкой:
бюджет ключа ограничивает общие расходы, cost-guardrail ограничивает
размер любого одного запроса или ответа.
8. Куда двигаться дальше
Правила стадии input
Как проверка запроса выполняется до вышестоящего вызова и до
тарификации.
Правила стадии output
Проверка и обрезка ответа модели, со стримингом и без.
Ошибка guardrail_blocked
Форма HTTP 400, гарантия отсутствия квоты и skip-retry.
Тестирование и eval
Докажите лимит против корпуса, прежде чем привязать ключ.
