1. Warum auf der Output-Stage nach unsicherer KI-Ausgabe screenen
Input-Screening fängt einen schlechten Prompt ab. Es kann keine schlechte Antwort abfangen: ein Modell, das off-policy verleitet wird, ein Fine-Tune mit schwächeren eingebauten Guardrails oder ein vollkommen vernünftiger Prompt, der eine unvernünftige Vervollständigung produziert hat. Die Output-Stage ist, wo Sie behaupten: „Egal warum, dieser Text verlässt das Gateway nicht.” Eine Gateway-Regel feuert deterministisch und gilt gleichermaßen über jedes Modell hinter Ihrem Key. Und jede Regel, die feuert, landet im Workspace-Matches-Feed — Regeltyp, Aktion, Stage — sodass Sie einen Audit-Trail haben, was abgefangen und was durchgelassen wurde.Die Verteidigung lebt im Gateway, nicht in Ihrer App. Bearbeiten Sie das
Guardrail, und die Änderung tritt beim nächsten Aufruf für jeden daran
angehängten Key in Kraft — kein Redeploy, keine SDK-Änderung. Ihre App ruft
weiterhin
/v1/chat/completions exakt wie zuvor auf.2. Die zwei Wege, es abzufangen
Paaren Sie eine deterministische Denylist mit einem semantischen Judge für Defense in Depth.Literal — Keyword / Regex (null Latenz)
Literal — Keyword / Regex (null Latenz)
Eine
keyword-Regel ist ein case-insensitiver Teilstring-Match; eine
regex-Regel ist ein RE2-Pattern (Linear-Zeit, keine Backreferences).
Beide laufen auf dem Hot Path ohne Netzwerkaufruf — ideal für eine
bekannte Liste verbotener Wörter, eine Wettbewerber-Denylist oder ein
strukturelles Pattern (ein geleaktes Chat-Template-Token, eine definitive
„you are entitled to damages”-Phrase).Semantisch — llm_judge (fängt, was keine Regex kann)
Semantisch — llm_judge (fängt, was keine Regex kann)
Eine
llm_judge-Regel wertet die Antwort gegen eine von Ihnen verfasste
Rubrik aus, unter Verwendung eines Modells in Ihrem Workspace — Toxizität,
off-brand Tonfall, off-policy Rat, den keine literale Liste erfasst. Sie
trägt ein judge_timeout_ms, ist standardmäßig fail-open (ein
Judge-Fehler wird geloggt und die Antwort läuft weiter), und ihre Tokens
werden als Judge-Unterzeile abgerechnet. Siehe die
LLM-Judge-Referenz.3. Ein konkretes Beispiel — toxisch blockieren, off-brand maskieren
Ein einzelnes Output-Stage-Guardrail, das eine toxische Antwort semantisch blockiert und verbotene Markenbegriffe in allem, was übrig bleibt, maskiert:/console/guardrails → New
guardrail, fügen Sie die zwei Regeln hinzu und hängen Sie es aus dem
Token-Editor an einen Key an (die Bindung lebt am Key als guardrail_id).
Die Konfiguration läuft auf Ihrer Konsolen-Session, nicht auf Ihrem
Relay-Key; nur der /v1/*-Aufruf unten verwendet einen sk-orca-...-Key.
guardrail_blocked zurückgehalten. Ist sie sauber, lässt aber einen
verbotenen Begriff fallen, rendert diese Stelle als typisierte Redigierung und
der Rest fließt durch.
4. Von einem Preset starten
Die New guardrail-Template-Bibliothek liefert fertige Ausgangspunkte in den Kategorien Safety, Brand und Compliance. Ein Preset ist ein Seed — wenden Sie es an, bearbeiten Sie dann frei.| Kategorie | Output-Stage-Preset zum Starten |
|---|---|
| Safety | System-Prompt Leak Detector (output), Strong System Prompt Leak — Antworten flaggen/blockieren, die System-Prompt- oder Chat-Template-Tokens echoen. |
| Brand | Profanity Filter (mask) — läuft auf beiden Stages und maskiert denylistete Wörter in der Antwort. (Die block-artigen Profanity- / Brand-Safety- und Competitor-Mentions-Presets sind Input-Stage-Seeds; retargeten Sie eine Kopie auf output, wenn sie die Antwort screenen sollen.) |
| Compliance | Legal Disclaimer Enforce — Antworten flaggen, die definitiven rechtlichen/finanziellen Rat geben, zur Team-Überprüfung. |
5. Streaming: die Einschränkung, die zählt
Ob eine Output-Regel live durchgesetzt wird, hängt von der Aktion ab und davon, ob Sie streamen.| Aktion | Nicht-streamend | Streamend |
|---|---|---|
block | Antwort zurückgehalten; HTTP 400 guardrail_blocked | Scanner schneidet den Stream mitten im Flug und gibt eine Ersatznachricht aus — blockierter Inhalt erreicht den Client nie |
mask | Treffer im zurückgegebenen Text redigiert | Heute nur nicht-streamend; In-Band-Stream-Umschreibung ist auf der Roadmap |
flag | Zeichnet einen Match auf, ändert nichts | Zeichnet einen Match auf, ändert nichts |
6. Empfohlene Policy-Form
Drei Regeln in einem Guardrail schichten
-
keyword/regexaufoutput— Null-Latenz-Abfang für bekannte verbotene Begriffe und strukturelle Patterns. -
llm_judgeaufoutput— semantischer Toxizitäts- / off-brand- / off-policy-Abfang für das, was die literale Liste verpasst. -
Rollen Sie zuerst via
flagaus, beobachten Sie den Matches-Feed, promoten Sie dann zublock, sobald die Falsch-Positiv-Rate akzeptabel ist. Siehe Enforcement-Modi.
Guardrails-Referenz
Vollständige Referenz für Regeltypen, Aktionen, Stages, den LLM-Judge,
Presets, das Eval-Harness und den Matches-Feed.
Datenexfiltration
Verhindern, dass sensible Daten in der Antwort eines Modells oder einem
Tool-Call abgehen.
