Каждый шаг здесь — это действие в консоли на хостируемом шлюзе
(
api.orcarouter.ai). Конфигурация guardrail выполняется в рамках вашей
сессии; только финальный вызов /v1/* использует relay-ключ sk-orca-....
Создание и редактирование guardrails требует Developer+ в рабочем
пространстве.1. Как добавить LLM-guardrails за пять шагов
Вот весь цикл с одного взгляда — каждый шаг раскрыт ниже.Создайте guardrail
В консоли откройте Guardrails и нажмите New guardrail. Дайте ему
имя (≤ 64 символов), например
pii-shield.Протестируйте в песочнице
Откройте вкладку Test, вставьте образец и прогоните политику локально
— без вышестоящего вызова, без квоты.
Привяжите к ключу
Отредактируйте API-ключ и выберите guardrail из выпадающего списка
Guardrail. Привязка живёт на ключе.
2. Создайте guardrail
В консоли откройте Guardrails и нажмите New guardrail. Guardrail — это именованная контентная политика в рамках рабочего пространства — упорядоченный список правил, которые шлюз прогоняет по входу запроса и выходу модели. Назовите егоpii-shield и сохраните.
3. Добавьте правило
Каждое правило решает три вещи — что искать (тип правила), где искать (стадия) и что делать (действие). Добавьте одно правило:- Тип: PII detection (
pii) - Стадия: Input (запрос)
- Действие: Mask — отредактировать совпадение
- Сущности:
email,phone,ssn
[EMAIL], SSN — [SSN]. Семь типов правил (keyword,
regex, pii, max_chars, external, llm_judge, grounding) и пять
действий (block, mask, flag, annotate, spotlight) описаны в
справочнике. Для этого первого
guardrail одного правила маскирования достаточно.
Маскирование работает на обеих стадиях. Правила стадии input маскируют
запрос прежде, чем модель его вообще увидит; правила стадии output маскируют
ответ модели — для непотоковых ответов и chunk-by-chunk для потоковых —
прежде чем клиент его получит. Block также применяется на обеих стадиях.
Если вы хотите отсекать ответы модели, установите стадию правила в
output
(или both); см. Правила стадии output.4. Протестируйте в песочнице
Прежде чем привязывать guardrail к какому-либо ключу, докажите, что он делает то, что вы ожидаете. Откройте вкладку Test внутри редактора, вставьте образец, выберите стадиюinput и запустите:
5. Привяжите к ключу
Guardrail ничего не делает, пока на него не укажет ключ. Два способа привязки:Для каждого ключа
Отредактируйте API-ключ и выберите guardrail из выпадающего списка
Guardrail. Это задаёт
guardrail_id на ключе. См.
Привязка к ключу.Default рабочего пространства
Пометьте guardrail как default рабочего пространства, чтобы любой
ключ без явной привязки наследовал его. См.
Default аккаунта.
| Порядок | Что применяется |
|---|---|
| 1 | Явный guardrail_id ключа (если он существует и включён). |
| 2 | Default рабочего пространства (если у ключа нет привязки). |
| 3 | None — запрос побайтно идентичен рабочему пространству без политики. |
6. Отправьте запрос
Используя ключ, привязанный кpii-shield, вызовите OrcaRouter ровно как
раньше — без изменений SDK, без новых заголовков:
[EMAIL] перед пересылкой — вышестоящая модель
никогда не видит адрес. Поменяйте действие правила на block, и самый
следующий запрос, содержащий эту сущность, отклоняется с HTTP 400
guardrail_blocked. Заблокированный запрос не стоит квоты (блокировка
input срабатывает до учёта; блокировка output возвращает предварительно
списанную квоту) и помечается как skip-retry. См.
ошибку guardrail_blocked
для полной формы ответа.
7. Куда дальше
Посмотрите, что сработало
Посмотрите, что сработало
Каждое сработавшее правило записывает совпадение — тип, действие,
стадию и строку детали. Совпавшая подстрока записывается только при
включённом Log raw content (по умолчанию выключено). См.
Ленту совпадений и
Логирование и приватность.
Маскируйте больше базового
Маскируйте больше базового
Детекция PII покрывает
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address (плюс региональные сущности), и вы можете создавать
свои собственные. См. PII Shield,
Пользовательские PII-сущности и
Форматы маскирования.Ловите секреты и инъекции
Ловите секреты и инъекции
Добавьте блокировщик секретов или
пресет Основы prompt-injection
— последний отмечает распространённые джейлбрейк-фразы для проверки. Чтобы
ловить намерение инъекции семантически, а не по фразе, добавьте рядом
правило
llm_judge.Откатите изменение
Откатите изменение
Каждая правка пишет строку истории версий. Откройте History для
сравнения и отката. См. Версионирование.
Отсекайте вызовы инструментов, а не только текст
Отсекайте вызовы инструментов, а не только текст
Guardrails проверяют содержимое. Чтобы управлять вызовами инструментов
агента — запрещать деструктивные действия, ограничивать стоимость,
требовать подтверждения — используйте Firewall.
Начните с Защиты ИИ-агентов и
угрозы опасных вызовов инструментов.
