1. Der Sensitive-Word-Filter-KI-Anwendungsfall
Einekeyword-Regel ist die einfachste Regel in der Engine: Sie geben ihr
eine Liste von Begriffen, und das Gateway trifft beliebige davon gegen den
Text an einer Stage. Das Matching ist ein Substring ohne Beachtung der
Groß-/Kleinschreibung — BadWord, badword und BADWORD treffen alle,
und der Begriff trifft auch, wenn er in ein längeres Wort eingebettet ist
(sodass class auch classic trifft). Jeder Begriff wird als wörtlicher
String behandelt, nicht als Muster; Sie escapen keine
Regex-Metazeichen.
Speichern Sie die Regel einmal in der Konsole, hängen Sie das Guardrail an
einen beliebigen API-Key (oder machen Sie es zum Workspace-Default), und
jeder Aufruf auf diesem Key wird ohne SDK-Änderung und ohne Redeploy
geprüft. Die Policy lebt im Gateway, nicht in Ihrer Anwendung — Ihre App
ruft /v1/chat/completions weiterhin genau wie zuvor auf.
2. Die Regel in der Konsole verfassen
Jeder Schritt hier ist eine Konsolen-Aktion in Ihrer eigenen Session. Das Erstellen und Bearbeiten von Guardrails erfordert Developer+ im Workspace. Nur der finale/v1/*-Aufruf nutzt einen sk-orca-...-Relay-Key.
Ein Guardrail erstellen
Öffnen Sie in der Konsole Guardrails und klicken Sie auf
New guardrail. Benennen Sie es (≤ 64 Zeichen), z. B.
banned-terms.Eine Keyword-Regel hinzufügen
Fügen Sie eine Regel hinzu:
- Type: Keyword denylist (
keyword) - Stage: Both (Request und Response)
- Action: Block
- Keywords: Ihre verbotenen Begriffe, einer pro Zeile
Testen
Öffnen Sie den Tab Test, fügen Sie ein Beispiel ein, das einen
verbotenen Begriff enthält, wählen Sie eine Stage und führen Sie die
Policy lokal aus — kein Upstream-Aufruf, kein Kontingent (siehe
§5).
Einen Key anhängen
Bearbeiten Sie einen API-Key und wählen Sie
banned-terms aus dem
Dropdown Guardrail (setzt guardrail_id am Key), oder markieren
Sie das Guardrail als Workspace-Default. Siehe
An einen Key anhängen und
Account-Default.3. Die Action wählen
Eine Keyword-Regel wählt eine Action pro Regel:Block — den Aufruf ablehnen
Block — den Aufruf ablehnen
Jeder Treffer lehnt den Request mit HTTP 400
guardrail_blocked
ab. Ein blockierter Request kostet kein Kontingent — ein
Input-Stage-Block feuert vor der Messung; ein Output-Stage-Block
erstattet das vorab verbrauchte Kontingent — und er wird als
skip-retry markiert. Nutzen Sie es für Begriffe, die nie in eine
der Richtungen passieren dürfen. Siehe den
guardrail_blocked-Fehler.Mask — den Begriff redigieren
Mask — den Begriff redigieren
Jeder Treffer wird an Ort und Stelle durch ein Redaktions-Tag ersetzt
und der Request läuft mit dem bereinigten Text weiter — das
Upstream-Modell sieht den Originalbegriff nie. Siehe
Actions.
Flag — nur beobachten
Flag — nur beobachten
Zeichnet einen Match auf und ändert nichts am Traffic. Nutzen Sie es,
um zu messen, wie oft ein Begriff auftaucht, bevor Sie zur Durchsetzung
wechseln.
Spotlight — als nicht vertrauenswürdige Daten umschließen (input)
Spotlight — als nicht vertrauenswürdige Daten umschließen (input)
Umschließt den getroffenen Text in Delimiter (z. B.
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧), sodass das Modell ihn als Daten, nicht
Anweisungen behandelt — eine Input-Stage-Prompt-Injection-Verteidigung.
Der Text erreicht weiterhin das Modell, nur abgezäunt. Siehe
Actions.Die Stage zählt.
input scannt den Request des Aufrufers, output
scannt die Response des Modells, both scannt jede Seite unabhängig. Ein
verbotener Begriff, den Ihre Benutzer tippen, und einer, den ein Modell
ausgeben könnte, sind verschiedene Probleme — wählen Sie die passende(n)
Stage(s). Siehe
Input-Stage-Regeln und
Output-Stage-Regeln.4. Streaming-Abdeckung
Die gewählte Action interagiert damit, ob die Response streamt:| Action | Nicht-Streaming | Streaming |
|---|---|---|
block (output) | Durchgesetzt | Durchgesetzt — Scanner schneidet den Stream ab |
mask (output) | Durchgesetzt | Noch nicht — Block-Entscheidung respektiert, maskierter Text nicht weitergeleitet (Roadmap) |
5. Testen, bevor Sie anhängen
Beweisen Sie, dass die Regel tut, was Sie erwarten, bevor irgendein Key darauf zeigt. Öffnen Sie den Tab Test im Editor, fügen Sie ein Beispiel ein, wählen Sie die Stage und führen Sie aus:6. Eine Anfrage senden
Rufen Sie mit einem anbanned-terms gebundenen Key OrcaRouter genau wie
zuvor auf — keine neuen Header, keine SDK-Änderung:
guardrail_blocked abgelehnt, bevor er je das Modell erreicht. Tauschen
Sie die Action auf mask, und der Begriff wird stattdessen vor der
Weiterleitung an Ort und Stelle redigiert.
7. Sehen, was ausgelöst hat
Jede Regel, die auslöst, zeichnet einen Match auf — Regeltyp, Action, Stage und einen Detail-String (bei Keyword-Regeln, wie viele Begriffe getroffen haben) — sichtbar im Workspace-Matches-Feed. Wenn ein gutartiger Begriff immer wieder trifft (ein Denylist-Eintrag, der ein Substring eines häufigen Wortes ist), markieren Sie ihn aus dem Matches-Feed als False Positive und verschärfen Sie den Eintrag. Siehe False Positives justieren.8. Wie es weitergeht
Regex-Detektoren
Treffen Sie strukturierte Muster — SKUs, Bestellnummern, Formate —
wenn eine wörtliche Denylist nicht ausreicht.
Markensicherheit
Schimpfwort-, Wettbewerber-Erwähnungs- und Kinderschutz-Presets, gebaut
auf Keyword-Regeln.
Actions
Wie sich block, mask und flag unterscheiden und wann man welches nutzt.
Guardrails-Referenz
Die vollständige Engine — jeder Regeltyp, jedes Feld und jede Route.
llm_judge-Regel eine semantische
Prüfung gegen ein Workspace-Modell aus.