1. Почему проверка шлюза важна для защиты от LLM jailbreak
Собственное обучение безопасности модели — первая линия, а не единственная. Модели переобучаются на новых корпусах атак, но фразы jailbreak эволюционируют быстрее, чем циклы обучения. Правило шлюза срабатывает детерминировано — оно не зависит от внутреннего состояния модели — и применяется одинаково ко всем моделям за вашим ключом, включая дообученные модели и открытые веса, которые могут иметь более слабые встроенные guardrails. Проверка шлюза также даёт журнал аудита. Каждое сработавшее правило попадает в ленту Matches рабочего пространства — тип правила, действие, деталь, стадия — независимо от того, что в итоге вернула модель.2. Два типа правил для проверки jailbreak
Движок guardrails OrcaRouter предлагает два взаимодополняющих подхода. Используйте их вместе для эшелонированной защиты.Семантическая проверка — llm_judge
Правило llm_judge выполняет семантическую проверку против модели в вашем
рабочем пространстве. Вы пишете рубрику, описывающую, что считается попыткой
jailbreak; движок добавляет приложение JSON-схемы, чтобы модель возвращала
разбираемый вердикт.
judge_fail_open: true (по умолчанию) означает, что таймаут judge или ошибка
записываются как телеметрия и запрос продолжается — безопасность деградирует,
доступность сохраняется. Установите false для fail closed, если пропущенная
проверка недопустима для вашего случая использования.
Вызов judge маршрутизируется через каналы вашего рабочего пространства; токены
тарифицируются и атрибутируются как подстрока judge.
Буквальный denylist — keyword и regex
Для известных фраз jailbreak и структурных паттернов правила keyword и regex
детерминированы и добавляют нулевую задержку — они работают на горячем пути без
сетевого вызова.
keyword — сопоставление подстроки без учёта регистра. Термин do anything now
также совпадает с Do Anything Now и you can do anything now.
regex принимает паттерны RE2 (линейное время, без обратных ссылок). Используйте
его для паттернов трюков с кодированием или структурных вариантов, которые
буквальный список не может покрыть.
3. Проверка выходной стадии
Входная проверка перехватывает попытку. Проверка выходной стадии перехватывает успешный обход — ответ, который не должен был быть произведён независимо от причины. Добавьте второе правилоllm_judge или keyword на stage: "output", чтобы
флагировать или блокировать ответ, содержащий запрещённый контент, до того, как
он достигнет клиента.
Стриминг vs. нестриминг
Здесь важно действие:| Действие | Нестриминговый | Стриминговый |
|---|---|---|
block | Ответ скрывается; HTTP 400 guardrail_blocked | Сканер прерывает поток на лету и выпускает замену — заблокированный контент никогда не достигает клиента |
mask | Совпадение редактируется в возвращаемом тексте | Сейчас применяется только к нестриминговым ответам; потоковая перезапись in-band запланирована |
block работает
правильно.
Заблокированный запрос не стоит квоты. Блокировка выходной стадии возвращает
предварительно списанную квоту после отклонения ответа. Вызывающий получает
HTTP 400
guardrail_blocked с именем guardrail и сработавшего правила.4. Пресет Jailbreak safety
Консоль поставляется с пресетом Jailbreak в категории шаблонов Safety рядом с Prompt-Injection Basics. Он объединяет входное правилоllm_judge
и denylist keyword известных фраз jailbreak в готовой отправной точке.
Чтобы применить: откройте /console/guardrails → New guardrail → просмотрите
библиотеку шаблонов → Safety → Jailbreak. Пресет — это семя, а не замок —
редактируйте рубрику, расширяйте список keyword и добавляйте выходные правила
под нужды вашего приложения.
5. Протестируйте политику до выпуска
Перед привязкой guardrail jailbreak к production-ключу проверьте его в eval / red-team harness на вкладке Eval внутри редактора guardrail.- Поставляемые адверсариальные корпусы — шлюз поставляется с red-team наборами, включающими варианты jailbreak, многоязычное уклонение и трюки с кодированием. Прогоните вашу политику по ним для измерения скорости обнаружения до того, как она увидит реальный трафик.
- Пользовательские корпусы — загрузите собственный JSONL для тестирования на фразах, специфичных для вашего домена или модели угроз.
- Корпусы ложных срабатываний — безвредные наборы поставляются вместе с адверсариальными. Прогоните оба, чтобы убедиться, что вы не блокируете легитимный трафик.
- Eval-прогоны перечисляются с оценками; откройте прогон, чтобы инспектировать отказы пример за примером и настраивать рубрику.
6. Рекомендуемая форма политики
Надёжная политика jailbreak наслаивает три правила в одном guardrail:| № | Правило | Стадия | Действие | Почему |
|---|---|---|---|---|
| 1 | keyword — известные фразы jailbreak | input | block | Нулевая задержка; детерминированно перехватывает известные фразы |
| 2 | llm_judge — рубрика intent jailbreak | input | block | Перехватывает новые варианты и трюки с кодированием, которые пропускает список keyword |
| 3 | llm_judge — рубрика запрещённого ответа | output | block | Эшелонированная защита: блокирует успешный обход до того, как он достигает клиента |
block только после того, как eval-прогон показывает
приемлемую скорость ложных срабатываний. См. Режимы применения
для паттерна выкатывания observe → shadow → enforce с действиями flag и
shadow mode.
7. Связь с prompt injection
Jailbreaks и prompt injection — различные, но перекрывающиеся угрозы:- Jailbreak нацелен на обучение безопасности модели — злоумышленник контролирует прямое сообщение пользователя и создаёт его для подавления guardrails.
- Prompt injection нацелен на следование инструкциям — недоверенный контент (веб-страница, результат инструмента, документ) несёт инструкции, которые модель воспринимает как директивы.
llm_judge и keyword перехватывают оба; рубрика отличается.
Для агентных рабочих нагрузок, поглощающих недоверенные документы или веб-контент,
запускайте проверку инъекций наряду с проверкой jailbreak. См.
Prompt injection для паттернов правил,
специфичных для инъекций.
Справочник Guardrails
Полный справочник по типам правил, действиям, стадиям, LLM judge, eval
harness и ленте Matches.
Prompt injection
Проверка на внедрённые инструкции из недоверенного контента в агентных
пайплайнах.
