Marken- und Tonsicherheit

Sie betreiben KI vor Kunden, und Ihre Marke steht auf dem Spiel. Ein Support-Bot darf nie fluchen, ein Marketing-Copilot darf nie einen Wettbewerber benennen, und nichts in Ihrem Traffic sollte Kinderschutz-Begriffe berühren. Marken- und Tonsicherheit ist der schnellste Weg, alle drei durchzusetzen: Die Guardrail-Preset-Kategorie Brand liefert Keyword-Denylists, die Sie an einen Key anhängen, und das Gateway prüft jeden Aufruf gegen sie, bevor er OpenAI, Anthropic oder Google erreicht. Dies ist eine fokussierte Landing-Page für den Markensicherheits-Anwendungsfall. Für die vollständige Engine — jeder Regeltyp, jedes Feld und jede Route — siehe die Guardrails-Referenz.

1. Markensicherheit-KI in einem Preset

Die Kategorie Brand im Guardrail-Template-Picker ist ein Satz von keyword-Denylists. Jedes Preset ist eine einzelne keyword-Regel, die Sie mit einem Klick anwenden und dann bearbeiten — tauschen Sie die Keim-Begriffe gegen Ihre eigene Liste. Es gibt keinen Modell-Aufruf, keinen Netzwerk-Hop und keine SDK-Änderung: Die Policy lebt im Gateway, und Ihre App ruft weiterhin /v1/chat/completions genau wie zuvor auf.

Profanität

Eine Denylist, die Fluchen oder verbotene Begriffe im Request blockiert — oder eine mask-Variante, die sie stattdessen redigiert.

Erwähnungen von Wettbewerbern

Blockiert (oder markiert) jede Erwähnung von Namen, die Sie auflisten — hält einen Copilot davon ab, die Konkurrenz anzupreisen.

Kinderschutz

Eine konservative Denylist für Kinderschutz-Begriffe, die Sie aus Ihren eigenen Standards befüllen, im Request blockiert.

Alle drei sind deterministische Keyword-Matches — Teilstring-Scans ohne Beachtung der Groß-/Kleinschreibung, die auf dem Request vor dem Upstream-Aufruf laufen. Sie kosten nichts extra und serialisieren nie hinter einem Modell.

2. Die Brand-Presets, genau wie ausgeliefert

Öffnen Sie den New guardrail-Splitbutton in der Konsolen-Ansicht Guardrails und wählen Sie die Template-Kategorie Brand. Fünf Keime leben dort:

Profanity / Brand Safety (block)

Eine einzelne keyword-Regel, Stage input, Action block. Wird mit Platzhalter-Begriffen ausgeliefert — bearbeiten Sie die Liste mit Ihren echten verbotenen Wörtern, Wettbewerbernamen oder Tabu-Phrasen. Ein Match gibt HTTP 400 guardrail_blocked zurück, bevor der Prompt das Gateway verlässt.

Profanity Filter (mask)

Dieselbe Denylist, aber Action mask und Stage both — auf der Denylist stehende Wörter werden durch [REDACTED] ersetzt, statt den Aufruf abzulehnen. Die sanftere Alternative, wenn Sie wollen, dass der Request bereinigt durchgeht statt abgelehnt zu werden.

Profanity Multilingual

Eine keyword-Block-Regel, befüllt mit markt-spezifischen Platzhaltern (zh, es, fr, de, ja, ar). Ersetzen Sie jeden durch die regionspezifischen Begriffe, die Ihre Policy verbietet — die Keim-Begriffe sind absichtlich generisch.

Competitor Mentions

Eine keyword-Regel, Stage input, Action block, befüllt mit einem einzelnen Platzhalter. Fügen Sie Ihre Wettbewerbernamen hinzu; schalten Sie die Action auf flag um, um Erwähnungen zu überwachen, ohne Traffic abzulehnen.

Child Safety Keywords

Eine konservative keyword-Denylist, Stage input, Action block. Der Keim ist ein bewusster Platzhalter — befüllen Sie ihn mit den exakten Begriffen aus Ihrer eigenen Sicherheits-Policy oder Ihren Standards, bevor Sie sich darauf verlassen.

Ein Preset ist ein Keim, keine Sperre. Jedes Brand-Preset wird mit Platzhalter-Begriffen ausgeliefert, sodass die Regel out of the box gültig ist — von Ihnen wird erwartet, dass Sie die Denylist für Ihre Marke bearbeiten, bevor Sie einen Key anhängen. Die Presets liefern absichtlich keine echten Verbotswort- oder Kinderschutz-Listen.

3. Ein Brand-Preset in der Konsole anwenden

Jeder Schritt hier ist eine Konsolen-Aktion unter Ihrer eigenen Session. Das Erstellen und Bearbeiten von Guardrails erfordert Developer+ im Workspace. Nur der finale /v1/*-Aufruf verwendet einen sk-orca-...-Relay-Key.

Template öffnen

Öffnen Sie in der Konsole Guardrails, klicken Sie auf den New guardrail-Splitbutton und wählen Sie Competitor Mentions (oder ein beliebiges Brand-Preset) aus der Template-Kategorie Brand.

Die Denylist bearbeiten

Ersetzen Sie den Keim-Platzhalter durch Ihre echten Begriffe — z. B. die Namen Ihrer Wettbewerber. Geben Sie dem Guardrail einen Namen (≤ 64 Zeichen), etwa brand-safety, und speichern.

Testen

Öffnen Sie den Tab Test, fügen Sie ein Sample an der input-Stage ein und führen Sie die Policy lokal aus — kein Upstream-Aufruf, kein Kontingent (siehe §5).

Einen Key anhängen

Bearbeiten Sie einen API-Key und wählen Sie brand-safety aus dem Dropdown Guardrail (setzt guardrail_id auf dem Key), oder markieren Sie es als Workspace-Default. Siehe Einen Key anhängen und Account-Default.

4. Ein konkretes Beispiel

Ein Wettbewerbs-Erwähnungs-Guardrail namens brand-safety ist an einen Key angehängt. Der Keim-Platzhalter wurde durch den echten Namen Acme ersetzt. Rufen Sie das Gateway genau wie zuvor auf — keine neuen Header:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

Die keyword-Regel matcht Acme im Request, und das Gateway lehnt den Aufruf mit HTTP 400 guardrail_blocked ab — unter Benennung des Guardrails und der ausgelösten Regel — bevor etwas das Upstream-Modell erreicht.

Ein block-Verdikt kostet kein Kontingent. Ein Block der Input-Stage feuert, bevor die Nutzung gemessen wird, und der Request wird als skip-retry markiert — das erneute Ausführen desselben Prompts gegen einen anderen Channel würde einfach wieder blockieren. Siehe den guardrail_blocked-Fehler.

Bevorzugen Sie mask gegenüber block für Profanität, wenn Sie den Prompt lieber bereinigen als ablehnen — auf der Denylist stehende Wörter rendern zu [REDACTED] und der Request geht durch. Bevorzugen Sie flag für Erwähnungen von Wettbewerbern, wenn Sie die Exposition messen wollen, bevor Sie mit dem Blockieren beginnen. Die Seite Actions deckt den vollständigen block / mask / flag-Kompromiss ab.

5. Testen, bevor Sie anhängen

Beweisen Sie, dass die Denylist tut, was Sie erwarten, bevor irgendein Key auf sie zeigt. Öffnen Sie den Tab Test im Editor, fügen Sie ein Sample ein, wählen Sie die input-Stage und führen Sie aus:

Write a tweet praising Acme over us

Die Sandbox evaluiert die aktuelle Policy lokal und gibt das Verdikt zurück — nichts wird nach Upstream gesendet, nichts wird gemessen. Für einen Durchlauf gegen einen Korpus von Formulierungen liegt das Eval-Harness einen Tab weiter.

Ein Keyword-Match ist ein Teilstring-Scan ohne Beachtung der Groß-/Kleinschreibung, sodass class auch innerhalb von classic matchen würde. Halten Sie Denylist-Einträge spezifisch und tunen Sie Fehlalarme aus dem Matches-Feed, sobald Sie echten Traffic sehen.

6. Sehen, was gefeuert hat

Jede Regel, die feuert, zeichnet einen Match auf — Regeltyp, Action, Stage und einen Detail-String — angezeigt im workspace-weiten Feed Matches (GET /api/guardrail/match, Member). Der gematchte Teilstring selbst (das verbotene Wort, der Wettbewerbername) wird nur dann aufgezeichnet, wenn Log raw content eingeschaltet ist, was standardmäßig aus ist.

Für eine Kinderschutz-Denylist ist es meist der Sinn der Sache, Log raw content ausgeschaltet zu lassen: Sie sehen, dass ein Begriff blockiert wurde und wie oft, ohne den Begriff in Ihre eigene Telemetrie zurückzukopieren. Schalten Sie es pro Guardrail nur ein, wenn Sie den Teilstring zum Triage brauchen; die Einstellung ist nicht rückwirkend. Siehe Matches-Feed und Logging & Datenschutz.

Jede Bearbeitung eines Brand-Guardrails schreibt eine versionierte Historie-Zeile in derselben Transaktion — diffen Sie beliebige zwei Versionen und reverten Sie aus der Ansicht History. Siehe Versionierung.

7. Wie es weitergeht

Filter für sensible Wörter

Die Keyword-Denylist-Mechanik hinter jedem Brand-Preset, im Detail.

Secrets blockieren

Fangen Sie API-Keys und Credentials mit dem Secrets-Blocker-Preset.

Fehlalarme tunen

Markieren Sie Fehlalarme und verschärfen Sie Denylists aus dem Matches-Feed.

Templates

Die vollständige Preset-Bibliothek über jede Kategorie.

Brand-Presets gaten Inhalt. Um ein Modell zu stoppen, das durch einen böswilligen Prompt von der Marke weggesteuert wurde, paaren Sie sie mit dem Prompt-Injection-Guardrail und der Bedrohung Jailbreaks. Für die vollständige Engine — Stages, erweiterte Regeln und Routen — lesen Sie die Guardrails-Referenz.

​1. Markensicherheit-KI in einem Preset

Profanität

Erwähnungen von Wettbewerbern

Kinderschutz

​2. Die Brand-Presets, genau wie ausgeliefert

​3. Ein Brand-Preset in der Konsole anwenden

​4. Ein konkretes Beispiel

​5. Testen, bevor Sie anhängen

​6. Sehen, was gefeuert hat

​7. Wie es weitergeht

Filter für sensible Wörter

Secrets blockieren

Fehlalarme tunen

Templates

1. Markensicherheit-KI in einem Preset

2. Die Brand-Presets, genau wie ausgeliefert

3. Ein Brand-Preset in der Konsole anwenden

4. Ein konkretes Beispiel

5. Testen, bevor Sie anhängen

6. Sehen, was gefeuert hat

7. Wie es weitergeht