Безопасность бренда и тона

Вы запускаете ИИ перед клиентами, и на кону ваш бренд. Бот поддержки никогда не должен ругаться, маркетинговый копилот никогда не должен называть конкурента, и ничто в вашем трафике не должно касаться терминов детской безопасности. Безопасность бренда и тона — самый быстрый способ применить все три: категория пресетов guardrail Brand поставляет keyword-denylist’ы, которые вы привязываете к ключу, и шлюз проверяет каждый вызов относительно них до того, как он вообще дойдёт до OpenAI, Anthropic или Google. Это сфокусированная посадочная страница для сценария защиты бренда. Полный движок — каждый тип правила, поле и маршрут — см. в справочнике Guardrails.

1. Brand safety ai в одном пресете

Категория Brand в выборщике шаблонов guardrail — это набор keyword-denylist’ов. Каждый пресет — это единственное правило keyword, которое вы применяете в один клик и затем редактируете — замените семенные термины на собственный список. Нет вызова модели, нет сетевого перехода и нет изменения SDK: политика живёт в шлюзе, а ваше приложение продолжает вызывать /v1/chat/completions ровно как раньше.

Ненормативная лексика

Denylist, который блокирует ругань или запрещённые термины в запросе — или вариант mask, который вместо этого их редактирует.

Упоминания конкурентов

Блокирует (или флагирует) любое упоминание имён, которые вы перечисляете — удержите копилот от расхваливания конкуренции.

Детская безопасность

Консервативный denylist для терминов детской безопасности, который вы наполняете из собственных стандартов, блокируемый в запросе.

Все три — детерминированные совпадения keyword — сканы подстрок без учёта регистра, которые выполняются на запросе до вышестоящего вызова. Они не стоят ничего дополнительного и никогда не сериализуются за моделью.

2. Пресеты Brand, ровно как поставлены

Откройте split-кнопку New guardrail во вью Guardrails консоли и выберите категорию шаблонов Brand. Там живут пять семян:

Profanity / Brand Safety (block)

Единственное правило keyword, стадия input, действие block. Поставляется с термами-заглушками — отредактируйте список под ваши реальные запрещённые слова, имена конкурентов или запретные фразы. Совпадение возвращает HTTP 400 guardrail_blocked до того, как промпт покинет шлюз.

Profanity Filter (mask)

Тот же denylist, но действие mask и стадия both — denylist’нутые слова заменяются на [REDACTED] вместо отклонения вызова. Более мягкая альтернатива, когда вы хотите, чтобы запрос прошёл очищенным, а не был отвергнут.

Profanity Multilingual

Правило block keyword, засеянное заглушками по рынкам (zh, es, fr, de, ja, ar). Замените каждую на регион-специфичные термины, которые запрещает ваша политика — семенные термины намеренно общие.

Competitor Mentions

Правило keyword, стадия input, действие block, засеянное единственной заглушкой. Добавьте имена ваших конкурентов; переключите действие на flag, чтобы мониторить упоминания без отклонения трафика.

Child Safety Keywords

Консервативный denylist keyword, стадия input, действие block. Семя — намеренная заглушка — наполните его точными терминами из вашей собственной политики или стандартов безопасности, прежде чем на него полагаться.

Пресет — это семя, а не замок. Каждый пресет Brand поставляется с термами-заглушками, чтобы правило было валидным «из коробки» — ожидается, что вы отредактируете denylist под ваш бренд перед привязкой ключа. Пресеты намеренно не поставляют реальных списков запрещённых слов или детской безопасности.

3. Примените пресет Brand в консоли

Каждый шаг здесь — действие консоли под вашей собственной сессией. Создание и редактирование guardrails требует Developer+ в рабочем пространстве. Только финальный вызов /v1/* использует relay-ключ sk-orca-....

Откройте шаблон

В консоли откройте Guardrails, нажмите split-кнопку New guardrail и выберите Competitor Mentions (или любой пресет Brand) из категории шаблонов Brand.

Отредактируйте denylist

Замените семенную заглушку на ваши реальные термины — например, имена ваших конкурентов. Дайте guardrail имя (≤ 64 символов), вроде brand-safety, и сохраните.

Протестируйте

Откройте вкладку Test, вставьте образец на стадии input и прогоните политику локально — без вышестоящего вызова, без квоты (см. §5).

Привяжите ключ

Отредактируйте API-ключ и выберите brand-safety из выпадающего списка Guardrail (устанавливает guardrail_id на ключе) или пометьте его default’ом рабочего пространства. См. Привязка к ключу и Default аккаунта.

4. Один конкретный пример

Guardrail упоминаний конкурентов с именем brand-safety привязан к ключу. Семенная заглушка заменена на реальное имя Acme. Вызовите шлюз ровно как раньше — без новых заголовков:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

Правило keyword совпадает с Acme в запросе, и шлюз отклоняет вызов с HTTP 400 guardrail_blocked — называя сработавшие guardrail и правило — до того, как что-либо дойдёт до вышестоящей модели.

Вердикт block не стоит квоты. Блокировка на стадии input срабатывает до тарификации использования, и запрос помечается skip-retry — повторный прогон того же промпта по другому каналу просто снова заблокировался бы. См. ошибку guardrail_blocked.

Предпочитайте mask вместо block для ненормативной лексики, когда вы скорее очистили бы промпт, чем отвергли его — denylist’нутые слова рендерятся в [REDACTED], и запрос проходит. Предпочитайте flag для упоминаний конкурентов, когда хотите измерить воздействие, прежде чем начать блокировать. Страница Действия покрывает полный компромисс block / mask / flag.

5. Протестируйте перед привязкой

Докажите, что denylist делает то, что вы ожидаете, прежде чем на него укажет любой ключ. Откройте вкладку Test внутри редактора, вставьте образец, выберите стадию input и запустите:

Write a tweet praising Acme over us

Песочница оценивает текущую политику локально и возвращает вердикт — ничего не отправляется вышестоящей системе, ничего не тарифицируется. Для прогона против корпуса формулировок eval-харнесс живёт одной вкладкой дальше.

Совпадение keyword — это скан подстроки без учёта регистра, так что class также совпало бы внутри classic. Держите записи denylist конкретными и настраивайте ложные срабатывания из ленты Matches, как только увидите реальный трафик.

6. Посмотрите, что сработало

Каждое сработавшее правило записывает совпадение — тип правила, действие, стадию и строку-деталь — всплывающее в ленте Matches рабочего пространства (GET /api/guardrail/match, Member). Сама совпавшая подстрока (запрещённое слово, имя конкурента) записывается только, когда включён Log raw content, который по умолчанию выключен.

Для denylist детской безопасности оставить Log raw content выключенным обычно и есть смысл: вы можете видеть, что термин был заблокирован и как часто, не копируя термин обратно в вашу собственную телеметрию. Включайте его для каждого guardrail только когда нужна подстрока для сортировки; настройка не ретроактивна. См. Ленту Matches и Логирование и приватность.

Каждое редактирование guardrail Brand пишет версионированную строку истории в той же транзакции — сравните любые две версии и откатитесь из вью History. См. Версионирование.

7. Куда двигаться дальше

Фильтры чувствительных слов

Механика keyword-denylist за каждым пресетом Brand, в деталях.

Блокировка секретов

Ловите API-ключи и учётные данные пресетом Secrets Blocker.

Настройка ложных срабатываний

Помечайте ложные срабатывания и ужесточайте denylist’ы из ленты Matches.

Шаблоны

Полная библиотека пресетов по каждой категории.

Пресеты Brand шлюзуют содержимое. Чтобы остановить модель, уведённую не туда вредоносным промптом, сочетайте их с guardrail prompt-инъекции и угрозой jailbreak’ов. Для полного движка — стадии, продвинутые правила и маршруты — прочтите справочник Guardrails.

​1. Brand safety ai в одном пресете

Ненормативная лексика

Упоминания конкурентов

Детская безопасность

​2. Пресеты Brand, ровно как поставлены

​3. Примените пресет Brand в консоли

​4. Один конкретный пример

​5. Протестируйте перед привязкой

​6. Посмотрите, что сработало

​7. Куда двигаться дальше

Фильтры чувствительных слов

Блокировка секретов

Настройка ложных срабатываний

Шаблоны

1. Brand safety ai в одном пресете

2. Пресеты Brand, ровно как поставлены

3. Примените пресет Brand в консоли

4. Один конкретный пример

5. Протестируйте перед привязкой

6. Посмотрите, что сработало

7. Куда двигаться дальше