Защитные барьеры

Создайте свой первый guardrail

Как добавить LLM-guardrails на хостируемом шлюзе OrcaRouter: создайте контентную политику рабочего пространства в консоли, добавьте правило, протестируйте его в песочнице, привяжите к ключу и отправьте запрос — без изменений SDK.

Самый быстрый способ поставить контентную политику перед каждым вызовом модели — это guardrail — именованная политика в рамках рабочего пространства, которую вы создаёте один раз в консоли и привязываете к API-ключу. После этого шлюз проверяет вход запроса и выход модели на следующем вызове, без передеплоя и без изменений SDK. Эта страница проводит вас по сквозному циклу: создайте guardrail, добавьте правило, протестируйте его в песочнице, привяжите к ключу и отправьте реальный запрос. Полный справочник по движку — каждый тип правила, поле и маршрут — см. в справочнике Guardrails.

Каждый шаг здесь — это действие в консоли на хостируемом шлюзе (api.orcarouter.ai). Конфигурация guardrail выполняется в рамках вашей сессии; только финальный вызов /v1/* использует relay-ключ sk-orca-.... Создание и редактирование guardrails требует Developer+ в рабочем пространстве.

1. Как добавить LLM-guardrails за пять шагов

Вот весь цикл с одного взгляда — каждый шаг раскрыт ниже.

Создайте guardrail

В консоли откройте Guardrails и нажмите New guardrail. Дайте ему имя (≤ 64 символов), например pii-shield.

Добавьте правило

Добавьте одно правило PII detection на стадии input с действием mask.

Протестируйте в песочнице

Откройте вкладку Test, вставьте образец и прогоните политику локально — без вышестоящего вызова, без квоты.

Привяжите к ключу

Отредактируйте API-ключ и выберите guardrail из выпадающего списка Guardrail. Привязка живёт на ключе.

Отправьте запрос

Вызовите /v1/chat/completions с этим ключом. Шлюз применяет политику перед пересылкой.

2. Создайте guardrail

В консоли откройте Guardrails и нажмите New guardrail. Guardrail — это именованная контентная политика в рамках рабочего пространства — упорядоченный список правил, которые шлюз прогоняет по входу запроса и выходу модели. Назовите его pii-shield и сохраните.

Split-кнопка New guardrail также открывает прямо в шаблон. Пресет PII Shield — это единственное правило pii, которое маскирует email, phone, ssn, credit_card и ip. Применение пресета — это семя, а не замок: после этого редактируйте его свободно. Просмотрите шаблоны пресетов для других отправных точек.

3. Добавьте правило

Каждое правило решает три вещи — что искать (тип правила), где искать (стадия) и что делать (действие). Добавьте одно правило:

Тип: PII detection (pii)
Стадия: Input (запрос)
Действие: Mask — отредактировать совпадение
Сущности: email, phone, ssn

При действии mask каждое совпадение заменяется типизированным тегом — email становится [EMAIL], SSN — [SSN]. Семь типов правил (keyword, regex, pii, max_chars, external, llm_judge, grounding) и пять действий (block, mask, flag, annotate, spotlight) описаны в справочнике. Для этого первого guardrail одного правила маскирования достаточно.

Маскирование работает на обеих стадиях. Правила стадии input маскируют запрос прежде, чем модель его вообще увидит; правила стадии output маскируют ответ модели — для непотоковых ответов и chunk-by-chunk для потоковых — прежде чем клиент его получит. Block также применяется на обеих стадиях. Если вы хотите отсекать ответы модели, установите стадию правила в output (или both); см. Правила стадии output.

4. Протестируйте в песочнице

Прежде чем привязывать guardrail к какому-либо ключу, докажите, что он делает то, что вы ожидаете. Откройте вкладку Test внутри редактора, вставьте образец, выберите стадию input и запустите:

Reply to jane@acme.com please

Песочница оценивает текущую политику локально и возвращает вердикт плюс отрендеренный текст:

Reply to [EMAIL] please

Ничего не отправляется вышестоящей системе и ничего не учитывается. Для A/B-сетки против корпуса входов инструмент оценки находится на соседней вкладке.

5. Привяжите к ключу

Guardrail ничего не делает, пока на него не укажет ключ. Два способа привязки:

Для каждого ключа

Отредактируйте API-ключ и выберите guardrail из выпадающего списка Guardrail. Это задаёт guardrail_id на ключе. См. Привязка к ключу.

Default рабочего пространства

Пометьте guardrail как default рабочего пространства, чтобы любой ключ без явной привязки наследовал его. См. Default аккаунта.

Разрешение явное и предсказуемое:

Порядок	Что применяется
1	Явный `guardrail_id` ключа (если он существует и включён).
2	Default рабочего пространства (если у ключа нет привязки).
3	None — запрос побайтно идентичен рабочему пространству без политики.

Явная привязка никогда не откатывается молча. Отключение привязанного guardrail — это выключатель: оно не проваливается на default рабочего пространства. (Политики firewall здесь отличаются; см. Guardrails vs. firewall.)

6. Отправьте запрос

Используя ключ, привязанный к pii-shield, вызовите OrcaRouter ровно как раньше — без изменений SDK, без новых заголовков:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

Шлюз маскирует email в [EMAIL] перед пересылкой — вышестоящая модель никогда не видит адрес. Поменяйте действие правила на block, и самый следующий запрос, содержащий эту сущность, отклоняется с HTTP 400 guardrail_blocked. Заблокированный запрос не стоит квоты (блокировка input срабатывает до учёта; блокировка output возвращает предварительно списанную квоту) и помечается как skip-retry. См. ошибку guardrail_blocked для полной формы ответа.

7. Куда дальше

Посмотрите, что сработало

Каждое сработавшее правило записывает совпадение — тип, действие, стадию и строку детали. Совпавшая подстрока записывается только при включённом Log raw content (по умолчанию выключено). См. Ленту совпадений и Логирование и приватность.

Маскируйте больше базового

Детекция PII покрывает email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (плюс региональные сущности), и вы можете создавать свои собственные. См. PII Shield, Пользовательские PII-сущности и Форматы маскирования.

Ловите секреты и инъекции

Добавьте блокировщик секретов или пресет Основы prompt-injection — последний отмечает распространённые джейлбрейк-фразы для проверки. Чтобы ловить намерение инъекции семантически, а не по фразе, добавьте рядом правило llm_judge.

Откатите изменение

Каждая правка пишет строку истории версий. Откройте History для сравнения и отката. См. Версионирование.

Отсекайте вызовы инструментов, а не только текст

Guardrails проверяют содержимое. Чтобы управлять вызовами инструментов агента — запрещать деструктивные действия, ограничивать стоимость, требовать подтверждения — используйте Firewall. Начните с Защиты ИИ-агентов и угрозы опасных вызовов инструментов.

Прочитайте справочник Guardrails для полного описания движка — поля правил, внешние вендоры, инструмент оценки и полный API — или быстрый старт по безопасности, чтобы связать guardrails и firewall в базовый уровень для агента.

Обзор Привязка к ключу

​1. Как добавить LLM-guardrails за пять шагов

​2. Создайте guardrail

​3. Добавьте правило

​4. Протестируйте в песочнице

​5. Привяжите к ключу

Для каждого ключа

Default рабочего пространства

​6. Отправьте запрос

​7. Куда дальше

1. Как добавить LLM-guardrails за пять шагов

2. Создайте guardrail

3. Добавьте правило

4. Протестируйте в песочнице

5. Привяжите к ключу

6. Отправьте запрос

7. Куда дальше