1. Markensicherheit-KI in einem Preset
Die Kategorie Brand im Guardrail-Template-Picker ist ein Satz von keyword-Denylists. Jedes Preset ist eine einzelnekeyword-Regel, die Sie
mit einem Klick anwenden und dann bearbeiten — tauschen Sie die Keim-Begriffe
gegen Ihre eigene Liste. Es gibt keinen Modell-Aufruf, keinen Netzwerk-Hop und
keine SDK-Änderung: Die Policy lebt im Gateway, und Ihre App ruft weiterhin
/v1/chat/completions genau wie zuvor auf.
Profanität
Eine Denylist, die Fluchen oder verbotene Begriffe im Request
blockiert — oder eine mask-Variante, die sie stattdessen
redigiert.
Erwähnungen von Wettbewerbern
Blockiert (oder markiert) jede Erwähnung von Namen, die Sie auflisten
— hält einen Copilot davon ab, die Konkurrenz anzupreisen.
Kinderschutz
Eine konservative Denylist für Kinderschutz-Begriffe, die Sie aus Ihren
eigenen Standards befüllen, im Request blockiert.
2. Die Brand-Presets, genau wie ausgeliefert
Öffnen Sie den New guardrail-Splitbutton in der Konsolen-Ansicht Guardrails und wählen Sie die Template-Kategorie Brand. Fünf Keime leben dort:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Eine einzelne
keyword-Regel, Stage input, Action block. Wird mit
Platzhalter-Begriffen ausgeliefert — bearbeiten Sie die Liste mit Ihren
echten verbotenen Wörtern, Wettbewerbernamen oder Tabu-Phrasen. Ein Match
gibt HTTP 400 guardrail_blocked zurück, bevor der Prompt das Gateway
verlässt.Profanity Filter (mask)
Profanity Filter (mask)
Dieselbe Denylist, aber Action mask und Stage both — auf der
Denylist stehende Wörter werden durch
[REDACTED] ersetzt, statt den
Aufruf abzulehnen. Die sanftere Alternative, wenn Sie wollen, dass der
Request bereinigt durchgeht statt abgelehnt zu werden.Profanity Multilingual
Profanity Multilingual
Eine
keyword-Block-Regel, befüllt mit markt-spezifischen Platzhaltern
(zh, es, fr, de, ja, ar). Ersetzen Sie jeden durch die regionspezifischen
Begriffe, die Ihre Policy verbietet — die Keim-Begriffe sind absichtlich
generisch.Competitor Mentions
Competitor Mentions
Eine
keyword-Regel, Stage input, Action block, befüllt mit einem
einzelnen Platzhalter. Fügen Sie Ihre Wettbewerbernamen hinzu; schalten
Sie die Action auf flag um, um Erwähnungen zu überwachen, ohne Traffic
abzulehnen.Child Safety Keywords
Child Safety Keywords
Eine konservative
keyword-Denylist, Stage input, Action block.
Der Keim ist ein bewusster Platzhalter — befüllen Sie ihn mit den exakten
Begriffen aus Ihrer eigenen Sicherheits-Policy oder Ihren Standards, bevor
Sie sich darauf verlassen.Ein Preset ist ein Keim, keine Sperre. Jedes Brand-Preset wird mit
Platzhalter-Begriffen ausgeliefert, sodass die Regel out of the box gültig ist
— von Ihnen wird erwartet, dass Sie die Denylist für Ihre Marke bearbeiten,
bevor Sie einen Key anhängen. Die Presets liefern absichtlich keine echten
Verbotswort- oder Kinderschutz-Listen.
3. Ein Brand-Preset in der Konsole anwenden
Jeder Schritt hier ist eine Konsolen-Aktion unter Ihrer eigenen Session. Das Erstellen und Bearbeiten von Guardrails erfordert Developer+ im Workspace. Nur der finale/v1/*-Aufruf verwendet einen
sk-orca-...-Relay-Key.
Template öffnen
Öffnen Sie in der Konsole Guardrails, klicken Sie auf den
New guardrail-Splitbutton und wählen Sie Competitor Mentions (oder
ein beliebiges Brand-Preset) aus der Template-Kategorie Brand.
Die Denylist bearbeiten
Ersetzen Sie den Keim-Platzhalter durch Ihre echten Begriffe — z. B. die
Namen Ihrer Wettbewerber. Geben Sie dem Guardrail einen Namen
(≤ 64 Zeichen), etwa
brand-safety, und speichern.Testen
Öffnen Sie den Tab Test, fügen Sie ein Sample an der
input-Stage ein
und führen Sie die Policy lokal aus — kein Upstream-Aufruf, kein
Kontingent (siehe §5).Einen Key anhängen
Bearbeiten Sie einen API-Key und wählen Sie
brand-safety aus dem
Dropdown Guardrail (setzt guardrail_id auf dem Key), oder markieren
Sie es als Workspace-Default. Siehe
Einen Key anhängen und
Account-Default.4. Ein konkretes Beispiel
Ein Wettbewerbs-Erwähnungs-Guardrail namensbrand-safety ist an einen Key
angehängt. Der Keim-Platzhalter wurde durch den echten Namen Acme ersetzt.
Rufen Sie das Gateway genau wie zuvor auf — keine neuen Header:
keyword-Regel matcht Acme im Request, und das Gateway lehnt den Aufruf
mit HTTP 400 guardrail_blocked ab — unter Benennung des Guardrails und
der ausgelösten Regel — bevor etwas das Upstream-Modell erreicht.
Bevorzugen Sie mask gegenüber block für Profanität, wenn Sie den
Prompt lieber bereinigen als ablehnen — auf der Denylist stehende Wörter
rendern zu [REDACTED] und der Request geht durch. Bevorzugen Sie flag
für Erwähnungen von Wettbewerbern, wenn Sie die Exposition messen wollen,
bevor Sie mit dem Blockieren beginnen. Die Seite
Actions deckt den vollständigen block /
mask / flag-Kompromiss ab.
5. Testen, bevor Sie anhängen
Beweisen Sie, dass die Denylist tut, was Sie erwarten, bevor irgendein Key auf sie zeigt. Öffnen Sie den Tab Test im Editor, fügen Sie ein Sample ein, wählen Sie dieinput-Stage und führen Sie aus:
6. Sehen, was gefeuert hat
Jede Regel, die feuert, zeichnet einen Match auf — Regeltyp, Action, Stage und einen Detail-String — angezeigt im workspace-weiten Feed Matches (GET /api/guardrail/match, Member). Der gematchte Teilstring selbst (das
verbotene Wort, der Wettbewerbername) wird nur dann aufgezeichnet, wenn
Log raw content eingeschaltet ist, was standardmäßig aus ist.
Für eine Kinderschutz-Denylist ist es meist der Sinn der Sache, Log raw
content ausgeschaltet zu lassen: Sie sehen, dass ein Begriff blockiert
wurde und wie oft, ohne den Begriff in Ihre eigene Telemetrie zurückzukopieren.
Schalten Sie es pro Guardrail nur ein, wenn Sie den Teilstring zum Triage
brauchen; die Einstellung ist nicht rückwirkend. Siehe
Matches-Feed und
Logging & Datenschutz.
7. Wie es weitergeht
Filter für sensible Wörter
Die Keyword-Denylist-Mechanik hinter jedem Brand-Preset, im Detail.
Secrets blockieren
Fangen Sie API-Keys und Credentials mit dem Secrets-Blocker-Preset.
Fehlalarme tunen
Markieren Sie Fehlalarme und verschärfen Sie Denylists aus dem
Matches-Feed.
Templates
Die vollständige Preset-Bibliothek über jede Kategorie.
