regex-Regel lässt Sie diese Form bei jedem Aufruf treffen und dann
blockieren, maskieren oder markieren, bevor der Prompt das Modell
erreicht und bevor die Response Ihren Benutzer erreicht.
Dies ist eine fokussierte Landingpage für den
Strukturmuster-Anwendungsfall. Die vollständige Guardrail-Engine — jeder
Regeltyp, jedes Feld und jede Route — finden Sie in der
Guardrails-Referenz.
api.orcarouter.ai). Sie verfassen das Guardrail in Ihrer eigenen Session;
nur der finale /v1/*-Aufruf nutzt einen sk-orca-...-Relay-Key. Das
Erstellen und Bearbeiten von Guardrails erfordert Developer+ im
Workspace.1. Wann Sie eine Regex-Guardrail-LLM-Kontrolle brauchen
Eineregex-Regel ist das richtige Werkzeug, wenn das, was Sie fangen
wollen, eine Struktur hat, die eine wörtliche Denylist nicht ausdrücken
kann, aber keine Standard-Identität ist, die der
pii-Detektor bereits abdeckt.
Strukturierte Codes
Format-geformte Tokens
Output-Leak-Muster
Günstige, deterministische Prüfungen
2. RE2 — lineare Zeit, keine Backreferences
Daspattern einer regex-Regel ist ein Go-RE2-Regex. RE2 ist die
Engine, die eine regex-Regel sicher macht, bei jedem Request zu laufen:
Matching in linearer Zeit — kein katastrophales Backtracking
Matching in linearer Zeit — kein katastrophales Backtracking
Keine Backreferences, kein Lookaround
Keine Backreferences, kein Lookaround
\1), Lookahead oder Lookbehind.
Wenn Sie ein PCRE-Muster portieren, das auf diese angewiesen ist,
schreiben Sie es ohne sie um. Zeichenklassen, Anker, Quantoren,
Alternation und nicht-fangende Gruppen funktionieren alle wie erwartet.Groß-/Kleinschreibung und Flags gehören ins Muster
Groß-/Kleinschreibung und Flags gehören ins Muster
(?i) für
Groß-/Kleinschreibungs-Unabhängigkeit, (?m) für Multiline. Beispiel:
(?i)\bproject-orca\b.Das Muster muss kompilieren — beim Speichern geprüft
Das Muster muss kompilieren — beim Speichern geprüft
3. Anatomie einer Regex-Regel
Eineregex-Regel ist nach keyword die kleinste Regel in der Engine: ein
Muster, eine Stage und eine Action.
| Feld | Was es tut |
|---|---|
pattern | Ein Go-RE2-Regex (lineare Zeit, keine Backreferences). Muss kompilieren. |
stage | input (Request), output (Response) oder both. |
action | block, mask oder flag. |
[REDACTED]-Tag ersetzt — eine regex-Regel ist
nicht typisiert, daher rendert sie kein Pro-Entity-Tag wie [EMAIL]. Wenn
Sie ein typisiertes Tag oder ein eigenes Ersatztoken wollen, modellieren
Sie die Form stattdessen als
Custom-PII-Entity.
4. Ein konkretes Beispiel
Angenommen, Ihre internen Bestellnummern sehen aus wieORD- gefolgt von
acht Ziffern, und Sie wollen nie eine in der Response eines Modells
zurückgegeben sehen. Fügen Sie eine einzelne regex-Regel auf der
output-Stage hinzu:
Ein Guardrail erstellen
order-id-filter.Eine Regex-Regel hinzufügen
ORD-\d{8} ein.
Speichern Sie.In der Sandbox testen
output-Stage und führen Sie die aktuelle Policy lokal aus — kein
Upstream-Aufruf, kein Kontingent:Einen Key anhängen
order-id-filter aus dem
Dropdown Guardrail (setzt guardrail_id am Key), oder markieren Sie
das Guardrail als Workspace-Default. Siehe
An einen Key anhängen und
Account-Default.5. Stage- und Streaming-Abdeckung
Die gewählte Action interagiert damit, ob die Response streamt:| Action | Nicht-Streaming | Streaming |
|---|---|---|
block (output) | Durchgesetzt | Durchgesetzt — Scanner schneidet den Stream ab |
mask (output) | Durchgesetzt | Durchgesetzt — Scanner schreibt den Puffer um |
6. Eine Action wählen
Eineregex-Regel wählt eine Action pro Regel:
Block — den Aufruf ablehnen
Block — den Aufruf ablehnen
guardrail_blocked
ab. Ein blockierter Request kostet kein Kontingent — ein
Input-Stage-Block feuert vor der Messung; ein Output-Stage-Block
erstattet das vorab verbrauchte Kontingent — und er wird als
skip-retry markiert. Siehe den
guardrail_blocked-Fehler.Mask — den Treffer redigieren
Mask — den Treffer redigieren
[REDACTED] ersetzt und der
Request läuft mit dem bereinigten Text weiter — das Upstream-Modell
(Input-Stage) oder Ihr Benutzer (Output-Stage) sieht das Original nie.
Siehe Actions.Flag — nur beobachten
Flag — nur beobachten
flag aus,
beobachten Sie den Matches-Feed und promoten Sie dann zu mask/block,
sobald Sie ihm vertrauen.Annotate — eine Notiz anhängen
Annotate — eine Notiz anhängen
Spotlight — als nicht vertrauenswürdige Daten umschließen
Spotlight — als nicht vertrauenswürdige Daten umschließen
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧), die dem Modell sagen,
den Text als Daten, nicht Anweisungen zu behandeln — eine
Prompt-Injection-Mitigation. Siehe
Actions.7. Sehen, was ausgelöst hat — und die Präzision justieren
Jede Regel, die auslöst, zeichnet einen Match auf — Regeltyp, Action, Stage und einen Detail-String — im Workspace-Matches-Feed. Ein zu breites Muster ist die klassische Regex-Falle —\d{8} trifft jede
achtstellige Ziffernfolge, nicht nur Ihre Bestellnummern. Verankern Sie es
(ein fester Präfix wie ORD-, Wortgrenzen \b), beobachten Sie den
Matches-Feed und markieren Sie False Positives, um es nach und nach zu
verschärfen. Für ein A/B-Raster gegen ein Korpus — um zu beweisen, dass ein
Muster fängt, was es soll, ohne gutartigen Traffic zu markieren — liegt das
Eval-Harness einen Tab weiter. Siehe
False Positives justieren.
8. Wie es weitergeht
Custom-PII-Entities
[REDACTED].Sensible Wörter
Actions
Guardrails-Referenz
regex-Regel steuert Inhalte. Um die Tool-Calls eines Agenten
zu steuern — destruktive Aktionen verweigern, Tool-Call-Argumente
redigieren, Freigabe verlangen — nutzen Sie die
Firewall und ihre
Regel-Matcher. Für unscharfe Policies, die
kein Muster ausdrücken kann (Toxizität, Off-Topic, Injection-Absicht),
führt eine llm_judge-Regel eine semantische Prüfung gegen ein
Workspace-Modell aus. Um zu sehen, wo Regex ins Gesamtdesign passt, lesen
Sie Guardrails vs. Firewall.