1. Brand safety ai в одном пресете
Категория Brand в выборщике шаблонов guardrail — это набор keyword-denylist’ов. Каждый пресет — это единственное правилоkeyword, которое вы применяете в один клик и затем редактируете —
замените семенные термины на собственный список. Нет вызова модели, нет
сетевого перехода и нет изменения SDK: политика живёт в шлюзе, а ваше
приложение продолжает вызывать /v1/chat/completions ровно как раньше.
Ненормативная лексика
Denylist, который блокирует ругань или запрещённые термины в
запросе — или вариант mask, который вместо этого их редактирует.
Упоминания конкурентов
Блокирует (или флагирует) любое упоминание имён, которые вы
перечисляете — удержите копилот от расхваливания конкуренции.
Детская безопасность
Консервативный denylist для терминов детской безопасности, который вы
наполняете из собственных стандартов, блокируемый в запросе.
2. Пресеты Brand, ровно как поставлены
Откройте split-кнопку New guardrail во вью Guardrails консоли и выберите категорию шаблонов Brand. Там живут пять семян:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Единственное правило
keyword, стадия input, действие block.
Поставляется с термами-заглушками — отредактируйте список под ваши
реальные запрещённые слова, имена конкурентов или запретные фразы.
Совпадение возвращает HTTP 400 guardrail_blocked до того, как
промпт покинет шлюз.Profanity Filter (mask)
Profanity Filter (mask)
Тот же denylist, но действие mask и стадия both —
denylist’нутые слова заменяются на
[REDACTED] вместо отклонения
вызова. Более мягкая альтернатива, когда вы хотите, чтобы запрос
прошёл очищенным, а не был отвергнут.Profanity Multilingual
Profanity Multilingual
Правило block
keyword, засеянное заглушками по рынкам (zh, es,
fr, de, ja, ar). Замените каждую на регион-специфичные термины,
которые запрещает ваша политика — семенные термины намеренно общие.Competitor Mentions
Competitor Mentions
Правило
keyword, стадия input, действие block, засеянное
единственной заглушкой. Добавьте имена ваших конкурентов; переключите
действие на flag, чтобы мониторить упоминания без отклонения
трафика.Child Safety Keywords
Child Safety Keywords
Консервативный denylist
keyword, стадия input, действие
block. Семя — намеренная заглушка — наполните его точными
терминами из вашей собственной политики или стандартов безопасности,
прежде чем на него полагаться.Пресет — это семя, а не замок. Каждый пресет Brand поставляется с
термами-заглушками, чтобы правило было валидным «из коробки» — ожидается,
что вы отредактируете denylist под ваш бренд перед привязкой ключа.
Пресеты намеренно не поставляют реальных списков запрещённых слов или
детской безопасности.
3. Примените пресет Brand в консоли
Каждый шаг здесь — действие консоли под вашей собственной сессией. Создание и редактирование guardrails требует Developer+ в рабочем пространстве. Только финальный вызов/v1/* использует relay-ключ
sk-orca-....
Откройте шаблон
В консоли откройте Guardrails, нажмите split-кнопку New
guardrail и выберите Competitor Mentions (или любой пресет
Brand) из категории шаблонов Brand.
Отредактируйте denylist
Замените семенную заглушку на ваши реальные термины — например, имена
ваших конкурентов. Дайте guardrail имя (≤ 64 символов), вроде
brand-safety, и сохраните.Протестируйте
Откройте вкладку Test, вставьте образец на стадии
input и
прогоните политику локально — без вышестоящего вызова, без квоты (см.
§5).Привяжите ключ
Отредактируйте API-ключ и выберите
brand-safety из выпадающего
списка Guardrail (устанавливает guardrail_id на ключе) или
пометьте его default’ом рабочего пространства. См.
Привязка к ключу и
Default аккаунта.4. Один конкретный пример
Guardrail упоминаний конкурентов с именемbrand-safety привязан к
ключу. Семенная заглушка заменена на реальное имя Acme. Вызовите шлюз
ровно как раньше — без новых заголовков:
keyword совпадает с Acme в запросе, и шлюз отклоняет вызов с
HTTP 400 guardrail_blocked — называя сработавшие guardrail и
правило — до того, как что-либо дойдёт до вышестоящей модели.
Предпочитайте mask вместо block для ненормативной лексики, когда
вы скорее очистили бы промпт, чем отвергли его — denylist’нутые слова
рендерятся в [REDACTED], и запрос проходит. Предпочитайте flag для
упоминаний конкурентов, когда хотите измерить воздействие, прежде чем
начать блокировать. Страница Действия
покрывает полный компромисс block / mask / flag.
5. Протестируйте перед привязкой
Докажите, что denylist делает то, что вы ожидаете, прежде чем на него укажет любой ключ. Откройте вкладку Test внутри редактора, вставьте образец, выберите стадиюinput и запустите:
6. Посмотрите, что сработало
Каждое сработавшее правило записывает совпадение — тип правила, действие, стадию и строку-деталь — всплывающее в ленте Matches рабочего пространства (GET /api/guardrail/match, Member). Сама
совпавшая подстрока (запрещённое слово, имя конкурента) записывается
только, когда включён Log raw content, который по умолчанию
выключен.
Для denylist детской безопасности оставить Log raw content
выключенным обычно и есть смысл: вы можете видеть, что термин был
заблокирован и как часто, не копируя термин обратно в вашу собственную
телеметрию. Включайте его для каждого guardrail только когда нужна
подстрока для сортировки; настройка не ретроактивна. См.
Ленту Matches и
Логирование и приватность.
7. Куда двигаться дальше
Фильтры чувствительных слов
Механика keyword-denylist за каждым пресетом Brand, в деталях.
Блокировка секретов
Ловите API-ключи и учётные данные пресетом Secrets Blocker.
Настройка ложных срабатываний
Помечайте ложные срабатывания и ужесточайте denylist’ы из ленты
Matches.
Шаблоны
Полная библиотека пресетов по каждой категории.
