1. Warum eine Gateway-Prüfung für LLM-Jailbreak-Abwehr wichtig ist
Das eigene Safety-Training des Modells ist die erste Linie, nicht die einzige. Modelle werden auf neuen Angriffs-Korpora nachtrainiert, aber Jailbreak-Phrasen entwickeln sich schneller als Trainingszyklen. Eine Gateway-Regel löst deterministisch aus — sie hängt nicht vom internen Zustand des Modells ab — und gilt gleichermaßen für alle Modelle hinter Ihrem Schlüssel, einschließlich Fine-Tunes und Open-Weights, die möglicherweise schwächere eingebaute Guardrails haben. Gateway-Prüfung gibt Ihnen auch einen Audit-Trail. Jede Regel, die auslöst, landet im workspace-weiten Matches-Feed — Regeltyp, Aktion, Detail, Stage — unabhängig davon, was das Modell letztendlich zurückgegeben hat.2. Die zwei Regeltypen für Jailbreak-Prüfung
Die Guardrail-Engine von OrcaRouter bietet zwei komplementäre Ansätze. Verwenden Sie sie zusammen für Defense-in-Depth.Semantische Prüfung — llm_judge
Eine llm_judge-Regel führt eine semantische Prüfung gegen ein Modell in
Ihrem Workspace durch. Sie schreiben ein Rubric, das beschreibt, was als
Jailbreak-Versuch gilt; die Engine hängt einen JSON-Schema-Anhang an, damit
das Modell ein parsebares Verdikt zurückgibt.
judge_fail_open: true (der Standard) bedeutet, dass ein Judge-Timeout oder
-Fehler als Telemetrie aufgezeichnet wird und der Request fortfährt — die
Sicherheit degradiert, die Verfügbarkeit bleibt erhalten. Setzen Sie es auf
false, um fail-closed zu sein, wenn eine verpasste Prüfung für Ihren
Anwendungsfall inakzeptabel ist.
Der Judge-Aufruf wird über die Channels Ihres Workspaces geroutet; Tokens
werden als Judge-Sub-Zeile abgerechnet und zugeordnet.
Literale Denylist — keyword und regex
Für bekannte Jailbreak-Phrasen und strukturelle Muster sind keyword- und
regex-Regeln deterministisch und fügen null Latenz hinzu — sie laufen auf
dem Hot-Path ohne Netzwerkaufruf.
keyword ist ein case-insensitiver Substring-Match. Ein Begriff wie
do anything now matcht auch Do Anything Now und you can do anything now.
regex akzeptiert RE2-Muster (lineare Zeit, keine Backreferences). Verwenden
Sie es für Encoding-Trick-Muster oder strukturelle Varianten, die eine
literale Liste nicht abdecken kann.
3. Output-Stage-Prüfung
Input-Prüfung fängt den Versuch ab. Output-Stage-Prüfung fängt eine erfolgreiche Umgehung ab — eine Antwort, die unabhängig davon nicht hätte produziert werden sollen. Fügen Sie eine zweitellm_judge- oder keyword-Regel bei
stage: "output" hinzu, um eine Antwort, die unerlaubte Inhalte enthält, zu
markieren oder zu blockieren, bevor sie den Client erreicht.
Streaming vs. Nicht-Streaming
Die Aktion ist hier entscheidend:| Aktion | Nicht-Streaming | Streaming |
|---|---|---|
block | Antwort wird zurückgehalten; HTTP 400 guardrail_blocked | Scanner schneidet den Stream mitten im Flug und sendet eine Ersatznachricht — blockierte Inhalte erreichen den Client nie |
mask | Treffer wird im zurückgegebenen Text redigiert | Gilt derzeit nur für Nicht-Streaming-Antworten; In-Band-Stream-Rewriting ist in Planung |
block korrekt.
Ein blockierter Request kostet kein Kontingent. Ein Output-Stage-Block
erstattet das vorab verbrauchte Kontingent zurück, nachdem die Antwort abgelehnt
wurde. Der Aufrufer erhält HTTP 400
guardrail_blocked, das das Guardrail und
die ausgelöste Regel benennt.4. Das Jailbreak-Safety-Preset
Die Konsole liefert ein Jailbreak-Preset in der Safety-Template-Kategorie neben Prompt-Injection-Basics. Es kombiniert eine Input-llm_judge-Regel
und eine keyword-Denylist bekannter Jailbreak-Phrasen als fertigen
Ausgangspunkt.
Um es anzuwenden: öffnen Sie /console/guardrails → Neues Guardrail →
Template-Bibliothek durchsuchen → Safety → Jailbreak. Das Preset ist ein
Ausgangspunkt — bearbeiten Sie das Rubric, erweitern Sie die Keyword-Liste und
fügen Sie Output-Stage-Regeln hinzu, um sie an die Anforderungen Ihrer
Anwendung anzupassen.
5. Ihre Policy vor dem Ausliefern testen
Bevor Sie ein Jailbreak-Guardrail an einen Produktionsschlüssel binden, validieren Sie es im Eval- / Red-Team-Harness auf dem Eval-Tab im Guardrail-Editor.- Mitgelieferte adversarielle Korpora — das Gateway liefert Red-Team-Sets einschließlich Jailbreak-Varianten, mehrsprachiger Umgehung und Encoding-Tricks. Führen Sie Ihre Policy gegen sie aus, um die Erkennungsrate zu messen, bevor sie echten Traffic sieht.
- Benutzerdefinierte Korpora — laden Sie Ihr eigenes JSONL hoch, um gegen Phrasen zu testen, die für Ihre Domain oder Ihr Bedrohungsmodell spezifisch sind.
- Falsch-Positiv-Korpora — harmlose Sets werden neben den adversariellen geliefert. Führen Sie beide aus, um zu bestätigen, dass Sie legitimen Traffic nicht blockieren.
- Eval-Runs werden mit ihren Scores aufgelistet; öffnen Sie einen Run, um Fehlschläge Sample für Sample zu inspizieren und das Rubric abzustimmen.
6. Empfohlene Policy-Form
Eine robuste Jailbreak-Policy schichtet drei Regeln in einem einzigen Guardrail:| # | Regel | Stage | Aktion | Warum |
|---|---|---|---|---|
| 1 | keyword — bekannte Jailbreak-Phrasen | input | block | Null Latenz; fängt bekannte Phrasen deterministisch ab |
| 2 | llm_judge — Jailbreak-Absicht-Rubric | input | block | Fängt neue Varianten und Encoding-Tricks ab, die die Keyword-Liste verfehlt |
| 3 | llm_judge — Unerlaubte-Antwort-Rubric | output | block | Defense-in-Depth: blockiert eine erfolgreiche Umgehung, bevor sie den Client erreicht |
block nachdem
ein Eval-Run eine akzeptable Falsch-Positiv-Rate zeigt. Siehe
Enforcement-Modi für das
Observe → Shadow → Enforce-Rollout-Muster mit flag-Aktionen und Shadow-Mode.
7. Verhältnis zu Prompt-Injection
Jailbreaks und Prompt-Injections sind unterschiedliche, aber überlappende Bedrohungen:- Ein Jailbreak zielt auf das Safety-Training des Modells ab — der Angreifer kontrolliert die direkte Benutzernachricht und gestaltet sie, um Guardrails zu unterdrücken.
- Eine Prompt-Injection zielt auf das Instruction-Following ab — nicht vertrauenswürdige Inhalte (eine Webseite, ein Tool-Ergebnis, ein Dokument) trägt Anweisungen, die das Modell als Direktiven behandelt.
llm_judge- und keyword-Regeln fangen beide ab; das Rubric
unterscheidet sich. Für agentische Workloads, die nicht vertrauenswürdige
Dokumente oder Webinhalte aufnehmen, führen Sie Injection-Prüfung zusammen mit
Jailbreak-Prüfung aus. Siehe
Prompt-Injection für die
injection-spezifischen Regelmuster.
Guardrails-Referenz
Vollständige Referenz für Regeltypen, Aktionen, Stages, LLM-Judge,
Eval-Harness und Matches-Feed.
Prompt-Injection
Prüfung auf injizierte Anweisungen aus nicht vertrauenswürdigen Inhalten
in agentischen Pipelines.
