1. Bezpieczeństwo marki ai jednym presetem
Kategoria Brand w wyborze szablonów guardrail to zestaw list zakazanych słów keyword. Każdy preset to pojedyncza regułakeyword, którą stosujesz
jednym kliknięciem, a potem edytujesz — zamień terminy-ziarna na własną listę.
Nie ma wywołania modelu, skoku sieciowego ani zmiany SDK: polityka żyje w
bramie, a twoja aplikacja dalej woła /v1/chat/completions dokładnie jak
wcześniej.
Wulgaryzmy
Lista zakazanych, która blokuje przekleństwa lub zakazane terminy na
żądaniu — lub wariant mask, który je zamiast tego redaguje.
Wzmianki o konkurencji
Blokuje (lub flaguje) dowolną wzmiankę o nazwach, które wylistujesz —
powstrzymaj copilota od chwalenia konkurencji.
Bezpieczeństwo dzieci
Konserwatywna lista zakazanych dla terminów bezpieczeństwa dzieci, którą
wypełniasz z własnych standardów, blokowana na żądaniu.
2. Presety Brand, dokładnie jak dostarczone
Otwórz przycisk z podziałem New guardrail w widoku konsoli Guardrails i wybierz kategorię szablonów Brand. Pięć ziaren tam mieszka:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Pojedyncza reguła
keyword, etap input, akcja block. Dostarczana
z terminami zastępczymi — edytuj listę na swoje prawdziwe zakazane słowa,
nazwy konkurentów lub frazy zakazane. Dopasowanie zwraca HTTP 400
guardrail_blocked, zanim prompt opuści bramę.Profanity Filter (mask)
Profanity Filter (mask)
Ta sama lista zakazanych, ale akcja mask i etap both — słowa z
listy są zastępowane
[REDACTED] zamiast odrzucania wywołania.
Łagodniejsza alternatywa, gdy wolisz, by żądanie przeszło oczyszczone, a
nie odmówione.Profanity Multilingual
Profanity Multilingual
Reguła block
keyword zasiana zastępnikami per-rynek (zh, es, fr, de, ja,
ar). Zastąp każdy specyficznymi dla regionu terminami, które twoja
polityka zakazuje — terminy-ziarna są celowo generyczne.Competitor Mentions
Competitor Mentions
Reguła
keyword, etap input, akcja block, zasiana pojedynczym
zastępnikiem. Dodaj nazwy swoich konkurentów; przełącz akcję na flag,
by monitorować wzmianki bez odrzucania ruchu.Child Safety Keywords
Child Safety Keywords
Konserwatywna lista zakazanych
keyword, etap input, akcja block.
Ziarno to celowy zastępnik — wypełnij je dokładnymi terminami z twojej
własnej polityki bezpieczeństwa lub standardów, zanim na nim polegniesz.Preset to ziarno, nie blokada. Każdy preset Brand jest dostarczany z
terminami zastępczymi, by reguła była poprawna od razu — oczekuje się, że
zedytujesz listę zakazanych dla swojej marki, zanim powiążesz klucz. Presety
celowo nie dostarczają prawdziwych list zakazanych słów ani bezpieczeństwa
dzieci.
3. Zastosuj preset Brand w konsoli
Każdy krok tutaj to akcja konsoli pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie/v1/* używa klucza relay sk-orca-....
Otwórz szablon
W konsoli otwórz Guardrails, kliknij przycisk z podziałem New
guardrail i wybierz Competitor Mentions (lub dowolny preset Brand) z
kategorii szablonów Brand.
Edytuj listę zakazanych
Zastąp zastępnik-ziarno swoimi prawdziwymi terminami — np. nazwami swoich
konkurentów. Nadaj guardrail nazwę (≤ 64 znaki), jak
brand-safety, i
zapisz.Przetestuj
Otwórz zakładkę Test, wklej próbkę na etapie
input i uruchom
politykę lokalnie — bez wywołania w górę, bez kwoty (zobacz
§5).Powiąż klucz
Edytuj klucz API i wybierz
brand-safety z rozwijanej listy Guardrail
(ustawia guardrail_id na kluczu) lub oznacz go jako domyślny
przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.4. Jeden konkretny przykład
Guardrail wzmianek o konkurencji o nazwiebrand-safety jest powiązany z
kluczem. Zastępnik-ziarno został zastąpiony prawdziwą nazwą Acme. Wywołaj
bramę dokładnie jak wcześniej — bez nowych nagłówków:
keyword dopasowuje Acme na żądaniu, a brama odrzuca wywołanie z
HTTP 400 guardrail_blocked — nazywając guardrail i regułę, która
zadziałała — zanim cokolwiek dotrze do modelu nadrzędnego.
Preferuj mask nad block dla wulgaryzmów, gdy wolisz oczyścić prompt,
niż go odmówić — słowa z listy renderują się do [REDACTED], a żądanie
przechodzi. Preferuj flag dla wzmianek o konkurencji, gdy chcesz zmierzyć
ekspozycję, zanim zaczniesz blokować. Strona
Akcje obejmuje pełny kompromis block / mask
/ flag.
5. Przetestuj, zanim powiążesz
Udowodnij, że lista zakazanych robi to, czego oczekujesz, zanim jakikolwiek klucz na nią wskaże. Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz etapinput i uruchom:
6. Zobacz, co zadziałało
Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — pokazane w strumieniu Matches przestrzeni roboczej (GET /api/guardrail/match, Member). Sam dopasowany podłańcuch
(zakazane słowo, nazwa konkurenta) jest rejestrowany tylko, gdy Log raw
content jest włączone, co jest domyślnie wyłączone.
Dla listy zakazanych bezpieczeństwa dzieci pozostawienie Log raw content
wyłączonego jest zwykle sednem: widzisz, że termin został zablokowany i jak
często, bez kopiowania terminu z powrotem do twojej własnej telemetrii. Włącz
to per guardrail tylko, gdy potrzebujesz podłańcucha do triażu; ustawienie nie
działa wstecznie. Zobacz Strumień dopasowań
i Logowanie i prywatność.
7. Dokąd dalej
Filtry słów wrażliwych
Mechanika listy zakazanych słów kluczowych za każdym presetem Brand, w głąb.
Blokuj sekrety
Wychwyć klucze API i poświadczenia presetem Secrets Blocker.
Strojenie fałszywie pozytywnych
Oznaczaj fałszywie pozytywne i zacieśniaj listy zakazanych ze strumienia Matches.
Szablony
Pełna biblioteka presetów we wszystkich kategoriach.
