Bezpieczeństwo marki i tonu

Uruchamiasz AI przed klientami i twoja marka jest na szali. Bot wsparcia nigdy nie może przeklinać, copilot marketingowy nigdy nie może nazwać konkurenta, a nic w twoim ruchu nie powinno dotykać terminów bezpieczeństwa dzieci. Bezpieczeństwo marki i tonu to najszybszy sposób, by wyegzekwować wszystkie trzy: kategoria presetów guardrail Brand dostarcza listy zakazanych słów kluczowych, które wiążesz z kluczem, a brama sprawdza wobec nich każde wywołanie, zanim w ogóle dotrze do OpenAI, Anthropic czy Google. To skupiona strona docelowa dla przypadku bezpieczeństwa marki. Pełny silnik — każdy typ reguły, pole i trasę — znajdziesz w referencji Guardrails.

1. Bezpieczeństwo marki ai jednym presetem

Kategoria Brand w wyborze szablonów guardrail to zestaw list zakazanych słów keyword. Każdy preset to pojedyncza reguła keyword, którą stosujesz jednym kliknięciem, a potem edytujesz — zamień terminy-ziarna na własną listę. Nie ma wywołania modelu, skoku sieciowego ani zmiany SDK: polityka żyje w bramie, a twoja aplikacja dalej woła /v1/chat/completions dokładnie jak wcześniej.

Wulgaryzmy

Lista zakazanych, która blokuje przekleństwa lub zakazane terminy na żądaniu — lub wariant mask, który je zamiast tego redaguje.

Wzmianki o konkurencji

Blokuje (lub flaguje) dowolną wzmiankę o nazwach, które wylistujesz — powstrzymaj copilota od chwalenia konkurencji.

Bezpieczeństwo dzieci

Konserwatywna lista zakazanych dla terminów bezpieczeństwa dzieci, którą wypełniasz z własnych standardów, blokowana na żądaniu.

Wszystkie trzy to deterministyczne dopasowania keyword — skany podciągu bez rozróżniania wielkości liter, które biegną na żądaniu przed wywołaniem w górę. Nie kosztują nic dodatkowo i nigdy nie serializują się za modelem.

2. Presety Brand, dokładnie jak dostarczone

Otwórz przycisk z podziałem New guardrail w widoku konsoli Guardrails i wybierz kategorię szablonów Brand. Pięć ziaren tam mieszka:

Profanity / Brand Safety (block)

Pojedyncza reguła keyword, etap input, akcja block. Dostarczana z terminami zastępczymi — edytuj listę na swoje prawdziwe zakazane słowa, nazwy konkurentów lub frazy zakazane. Dopasowanie zwraca HTTP 400 guardrail_blocked, zanim prompt opuści bramę.

Profanity Filter (mask)

Ta sama lista zakazanych, ale akcja mask i etap both — słowa z listy są zastępowane [REDACTED] zamiast odrzucania wywołania. Łagodniejsza alternatywa, gdy wolisz, by żądanie przeszło oczyszczone, a nie odmówione.

Profanity Multilingual

Reguła block keyword zasiana zastępnikami per-rynek (zh, es, fr, de, ja, ar). Zastąp każdy specyficznymi dla regionu terminami, które twoja polityka zakazuje — terminy-ziarna są celowo generyczne.

Competitor Mentions

Reguła keyword, etap input, akcja block, zasiana pojedynczym zastępnikiem. Dodaj nazwy swoich konkurentów; przełącz akcję na flag, by monitorować wzmianki bez odrzucania ruchu.

Child Safety Keywords

Konserwatywna lista zakazanych keyword, etap input, akcja block. Ziarno to celowy zastępnik — wypełnij je dokładnymi terminami z twojej własnej polityki bezpieczeństwa lub standardów, zanim na nim polegniesz.

Preset to ziarno, nie blokada. Każdy preset Brand jest dostarczany z terminami zastępczymi, by reguła była poprawna od razu — oczekuje się, że zedytujesz listę zakazanych dla swojej marki, zanim powiążesz klucz. Presety celowo nie dostarczają prawdziwych list zakazanych słów ani bezpieczeństwa dzieci.

3. Zastosuj preset Brand w konsoli

Każdy krok tutaj to akcja konsoli pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie /v1/* używa klucza relay sk-orca-....

Otwórz szablon

W konsoli otwórz Guardrails, kliknij przycisk z podziałem New guardrail i wybierz Competitor Mentions (lub dowolny preset Brand) z kategorii szablonów Brand.

Edytuj listę zakazanych

Zastąp zastępnik-ziarno swoimi prawdziwymi terminami — np. nazwami swoich konkurentów. Nadaj guardrail nazwę (≤ 64 znaki), jak brand-safety, i zapisz.

Przetestuj

Otwórz zakładkę Test, wklej próbkę na etapie input i uruchom politykę lokalnie — bez wywołania w górę, bez kwoty (zobacz §5).

Powiąż klucz

Edytuj klucz API i wybierz brand-safety z rozwijanej listy Guardrail (ustawia guardrail_id na kluczu) lub oznacz go jako domyślny przestrzeni roboczej. Zobacz Powiąż z kluczem i Domyślny dla konta.

4. Jeden konkretny przykład

Guardrail wzmianek o konkurencji o nazwie brand-safety jest powiązany z kluczem. Zastępnik-ziarno został zastąpiony prawdziwą nazwą Acme. Wywołaj bramę dokładnie jak wcześniej — bez nowych nagłówków:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

Reguła keyword dopasowuje Acme na żądaniu, a brama odrzuca wywołanie z HTTP 400 guardrail_blocked — nazywając guardrail i regułę, która zadziałała — zanim cokolwiek dotrze do modelu nadrzędnego.

Werdykt block nie kosztuje kwoty. Blokada na etapie wejścia działa, zanim użycie jest mierzone, a żądanie jest oznaczone jako skip-retry — ponowne uruchomienie tego samego promptu na innym kanale po prostu znów by zablokowało. Zobacz błąd guardrail_blocked.

Preferuj mask nad block dla wulgaryzmów, gdy wolisz oczyścić prompt, niż go odmówić — słowa z listy renderują się do [REDACTED], a żądanie przechodzi. Preferuj flag dla wzmianek o konkurencji, gdy chcesz zmierzyć ekspozycję, zanim zaczniesz blokować. Strona Akcje obejmuje pełny kompromis block / mask / flag.

5. Przetestuj, zanim powiążesz

Udowodnij, że lista zakazanych robi to, czego oczekujesz, zanim jakikolwiek klucz na nią wskaże. Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz etap input i uruchom:

Write a tweet praising Acme over us

Piaskownica ewaluuje bieżącą politykę lokalnie i zwraca werdykt — nic nie jest wysyłane w górę, nic mierzone. Po przemiatanie wobec korpusu sformułowań harness ewaluacyjny mieszka o jedną zakładkę dalej.

Dopasowanie keyword to skan podciągu bez rozróżniania wielkości liter, więc class pasowałby też wewnątrz classic. Trzymaj wpisy listy zakazanych konkretnymi i stroj fałszywie pozytywne ze strumienia Matches, gdy zobaczysz rzeczywisty ruch.

6. Zobacz, co zadziałało

Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — pokazane w strumieniu Matches przestrzeni roboczej (GET /api/guardrail/match, Member). Sam dopasowany podłańcuch (zakazane słowo, nazwa konkurenta) jest rejestrowany tylko, gdy Log raw content jest włączone, co jest domyślnie wyłączone.

Dla listy zakazanych bezpieczeństwa dzieci pozostawienie Log raw content wyłączonego jest zwykle sednem: widzisz, że termin został zablokowany i jak często, bez kopiowania terminu z powrotem do twojej własnej telemetrii. Włącz to per guardrail tylko, gdy potrzebujesz podłańcucha do triażu; ustawienie nie działa wstecznie. Zobacz Strumień dopasowań i Logowanie i prywatność.

Każda edycja guardrail Brand zapisuje wersjonowany wiersz historii w tej samej transakcji — porównaj dowolne dwie wersje i przywróć z widoku History. Zobacz Wersjonowanie.

7. Dokąd dalej

Filtry słów wrażliwych

Mechanika listy zakazanych słów kluczowych za każdym presetem Brand, w głąb.

Blokuj sekrety

Wychwyć klucze API i poświadczenia presetem Secrets Blocker.

Strojenie fałszywie pozytywnych

Oznaczaj fałszywie pozytywne i zacieśniaj listy zakazanych ze strumienia Matches.

Szablony

Pełna biblioteka presetów we wszystkich kategoriach.

Presety Brand bramkują treść. Aby zatrzymać model, który został zepchnięty poza markę przez złośliwy prompt, sparuj je z guardrail prompt-injection i zagrożeniem jailbreaków. Po kompletny silnik — etapy, zaawansowane reguły i trasy — przeczytaj referencję Guardrails.

​1. Bezpieczeństwo marki ai jednym presetem

Wulgaryzmy

Wzmianki o konkurencji

Bezpieczeństwo dzieci

​2. Presety Brand, dokładnie jak dostarczone

​3. Zastosuj preset Brand w konsoli

​4. Jeden konkretny przykład

​5. Przetestuj, zanim powiążesz

​6. Zobacz, co zadziałało

​7. Dokąd dalej

Filtry słów wrażliwych

Blokuj sekrety

Strojenie fałszywie pozytywnych

Szablony

1. Bezpieczeństwo marki ai jednym presetem

2. Presety Brand, dokładnie jak dostarczone

3. Zastosuj preset Brand w konsoli

4. Jeden konkretny przykład

5. Przetestuj, zanim powiążesz

6. Zobacz, co zadziałało

7. Dokąd dalej