/v1/*-Aufruf, den dieser Key tätigt, wird geprüft —
bevor das Modell den Prompt sieht und nachdem das Modell geantwortet hat —
ohne Redeploy und ohne SDK-Änderung.
Diese Seite ist der Hub für den Guardrails-Bereich: was ein Guardrail ist,
die Regeltypen, die Stages und Actions und wie eine Policy an einen Key
angehängt wird. Jede Verzweigung geht tiefer. Die vollständige
Engine-Referenz finden Sie unter Guardrails.
1. Was KI-Guardrails am Gateway tun
Die meisten Teams greifen zu Guardrails, um sensible Daten aus Prompts herauszuhalten (PII, Secrets), um unsichere Inhalte zu gaten (Jailbreaks, Prompt-Injection-Absicht) oder um eine Compliance-Kontrolle zu erfüllen. Ein Guardrail ist die Antwort des Gateways: eine workspace-bezogene, benannte Policy — eine geordnete Liste von Regeln, die das Gateway gegen den Request-Input und den Modell-Output ausführt. Weil die Bindung am API-Key im Gateway lebt — nicht in Ihrer Anwendung — verschiebt das Bearbeiten eines Guardrails jeden angehängten Key beim nächsten Aufruf. Ihr Code ruft/v1/chat/completions weiterhin genau wie
zuvor auf.
Guardrails sind Content-Policy (Text rein, Text raus). Die ergänzende
Agent-Firewall ist Tool-Policy — sie steuert,
welche Tool-Calls ein Agent tätigen darf. Beide komponieren; siehe
Guardrails vs. Firewall.
2. Ein konkretes Beispiel
Erstellen Sie in der Konsole (/console/guardrails) ein Guardrail namens
pii-shield, fügen Sie eine einzelne PII-Regel hinzu — Stage input,
Action mask, Entities email, ssn — und hängen Sie es an einen Key an.
Von da an:
Reply to [EMAIL] please um — das Upstream-Modell sieht die Adresse nie. Stellen Sie
diese ssn-Entity auf block, und der nächste Request, der eine SSN
trägt, wird mit HTTP 400 abgelehnt. Keine Änderung in der Anwendung.
3. Regeln: Type, Stage, Action
Jede Regel beantwortet drei Fragen. Die Engine führt alle zutreffenden Regeln aus und fasst sie zu einer Entscheidung zusammen.Type — wonach gesucht wird
Type — wonach gesucht wird
Sieben Regeltypen. Die eingebauten sind deterministisch (reines
String-/Regex-Matching, kein Netzwerk); die erweiterten rufen ein Modell
oder einen Anbieter auf und laufen nebenläufig.
keyword— literale Denylist, Teilstring-Match ohne Beachtung der Groß-/Kleinschreibung.regex— ein RE2-Muster (lineare Zeit, keine Backreferences).pii— eingebaute Entity-Detektoren plus Ihre eigenen. Siehe §5.max_chars— begrenzt die Zeichenzahl an einer Stage.external— delegiert an einen verbundenen Anbieter (Aporia, Averta oder Ihren eigenen Webhook).llm_judge— eine semantische Prüfung gegen ein Modell in Ihrem Workspace.grounding— bewertet die Treue der Antwort gegenüber den auf der Anfrage abgerufenen Quellen (RAG).
Stage — wo gesucht wird
Stage — wo gesucht wird
input (die Anfrage), output (die Antwort des Modells) oder both.
Input-Regeln laufen vor dem Upstream-Call; Output-Regeln laufen, nachdem
das Modell geantwortet hat. Siehe Input-Stage
und Output-Stage.Action — was zu tun ist
Action — was zu tun ist
Fünf Actions tauchen im Rule-Builder auf:
- block — den Aufruf mit HTTP 400 ablehnen.
- mask — den Treffer redigieren und den bereinigten Text durchlassen.
- flag — nichts am Traffic ändern; nur den Match aufzeichnen.
- annotate — den Text unangetastet lassen, aber eine Sicherheitsnotiz nach Upstream injizieren (z. B. ein CVE-Advisory, bevor das Modell antwortet).
- spotlight — den gematchten nicht vertrauenswürdigen Text in Delimiter einfassen und dem Modell sagen, ihn als Daten zu behandeln, nicht als Anweisungen.
4. Wie ein Guardrail angehängt und aufgelöst wird
Ein Guardrail bindet sich viaguardrail_id an einen Key, oder ein
Workspace kann ein Guardrail als seinen Default markieren. Für jede Anfrage
löst das Gateway in dieser Reihenfolge auf:
- Explizite Bindung — wenn die
guardrail_iddes Keys auf ein Guardrail zeigt, das existiert und aktiviert ist, gilt dieses. Eine explizite Bindung fällt nie zurück: das Deaktivieren ist der Aus-Schalter. - Workspace-Default — wenn der Key keine Bindung hat, gilt das aktivierte Default-Guardrail.
- Keines von beiden — keine Durchsetzung; die Anfrage ist byte-identisch zu einem Workspace, der das Feature nie aktiviert hat.
Dies unterscheidet sich von der Firewall. Eine deaktivierte angehängte
Firewall-Policy fällt auf den Workspace-Default zurück; ein
deaktiviertes angehängtes Guardrail geht auf keines. Der Aus-Schalter
ist bei Guardrails wörtlich gemeint.
5. PII-Detektoren
Einepii-Regel liefert einen geschlossenen Satz eingebauter Detektoren
mit:
email, phone, credit_card, ssn, ip, iban, mac_address,
jwt, aws_access_key, api_key_openai, bitcoin_address — plus die
regionalen jp_mynumber, kr_rrn und cn_resident_id.
Bei einer mask-Action wird jeder Treffer zu einem typisierten Tag — aus
einer E-Mail wird [EMAIL], aus einer SSN wird [SSN]. Sie können bis zu
25 benutzerdefinierte Entities pro Regel schichten (eine Regex mit
optionaler Luhn-Prüfsumme) und in einer Regel verschiedene Entities via
Pro-Entity-Overrides an verschiedene Actions routen.
6. Der Preset-Picker
New guardrail öffnet in ein Template. Presets werden serverseitig verfasst, sodass die Konsole, die Sandbox und diese Doku dasselbe Verhalten beschreiben. Der Picker gruppiert sie in Kategorien:| Kategorie | Beispiel-Presets | Verzweigung |
|---|---|---|
| pii / secrets | PII Shield, Secret-Credential-Blocker | Secrets blockieren |
| safety | Prompt-Injection, Jailbreak, Selbstverletzung | Prompt-Injection |
| compliance | GDPR, PCI, HIPAA, Compliance-Logger | Compliance-Logger |
| brand / cost | Profanität, Erwähnungen von Wettbewerbern, Größenlimits | Brand Safety · Cost |
| agent | URL- / Shell-Tool- / SQL-in-Output-Filter | Agentisch |
| code_security | Secret-File-Blocks, Copyleft-Lizenz-Review | Code-Sicherheit |
7. Wenn ein Guardrail blockiert
Ein blockierter Request gibt HTTP 400 mit dem Fehlercodeguardrail_blocked und einer Nachricht zurück, die das Guardrail und die
ausgelöste Regel benennt.
- Kein Kontingent wird berechnet. Ein Block der Input-Stage feuert vor der Messung; ein Block der Output-Stage erstattet das vorab verbrauchte Kontingent zurück.
- Die Anfrage wird als skip-retry markiert — das erneute Ausführen desselben Prompts würde einfach wieder blockieren, sodass das Gateway keinen Retry an einen anderen Channel verschwendet.
8. Nachdem es live ist
Matches-Feed
Jede Regel, die feuert, zeichnet Type, Action, Stage und Detail auf.
Gruppieren, filtern, exportieren und in einen einzelnen Match eintauchen.
Logging & Datenschutz
Der gematchte Teilstring wird nur aufgezeichnet, wenn Log raw content
an ist — standardmäßig aus, die datenschutzfreundliche Haltung.
Versionierung
Jede Änderung schreibt eine Historie-Zeile. Diffen Sie beliebige zwei
Versionen und reverten Sie als neue Version — die Historie wird nie mutiert.
Testing & Eval
Ein Sandbox-Tab Test evaluiert die aktuelle Policy ohne
Upstream-Aufruf, und ein Eval-Harness bewertet sie gegen mitgelieferte
oder benutzerdefinierte Korpora.
9. Wohin als Nächstes
Den richtigen Regeltyp wählen
Den richtigen Regeltyp wählen
Das Modell verstehen
Das Modell verstehen
Auf Bedrohungen abbilden
Auf Bedrohungen abbilden
Vollständige Engine-Referenz
Vollständige Engine-Referenz
Guardrails — jedes Feld, jede Route, die
LLM-Judge- und Grounding-Regeln und externe Anbieter im Detail.
