Ein PII-Guardrail screent den Text von Prompts und Antworten. Um die
Aktionen zu steuern, die ein Agent mit Daten vornimmt — Fetch-Tools,
Egress-Hosts — siehe
Datenexfiltration. Die beiden Ebenen
komponieren; die meisten Teams betreiben beide.
1. Wie die Offenlegung passiert
PII erreicht einen Upstream-Anbieter durch ganz gewöhnlichen, gut gemeinten Traffic:- Ein Nutzer fügt seine eigenen Kontaktdaten in einen Chat ein, und Ihre App leitet die gesamte Nachricht wortwörtlich weiter.
- Eine RAG-Pipeline ruft ein Dokument mit Kundendatensätzen ab und stopft es als Kontext in den Prompt.
- Ein Agent liest eine Datenbankzeile und nimmt Rohfelder in ein Tool-Argument oder einen Folge-Prompt auf.
- Die Antwort des Modells wiederholt oder schlussfolgert PII, die Ihre App dann in ihre eigenen Logs schreibt.
2. Das LLM-PII-Leck mit einem PII-Guardrail abwehren
Ein Guardrail ist eine workspace-bezogene, benannte Inhalts-Policy. Einepii-Regel darin erkennt sensible Entitäten und wendet
eine Aktion auf jeden Treffer an:
| Aktion | Effekt |
|---|---|
mask | Jeden Treffer durch ein typisiertes Tag ersetzen — jane@acme.com → [EMAIL] — und den bereinigten Text weiterleiten. Das Modell sieht das Original nie. |
block | Den gesamten Request mit HTTP 400 guardrail_blocked ablehnen. Verwenden Sie dies, wenn PII den Anbieter überhaupt nie erreichen darf. |
flag | Nichts am Traffic ändern; einen Treffer aufzeichnen. Messen Sie die Exposition, bevor Sie durchsetzen. |
email, phone, credit_card, ssn, ip, iban, mac_address, jwt,
aws_access_key, api_key_openai, bitcoin_address, plus die
checksummen-gesicherten regionalen Identifier jp_mynumber, kr_rrn und
cn_resident_id.
Bei einer mask-Aktion rendert jeder Treffer als sein typisiertes Tag —
[EMAIL], [SSN], [CREDIT_CARD] und so weiter — sodass die Struktur des
Prompts überlebt, während der Wert verschwunden ist.
3. Konkretes Beispiel — PII auf dem Request maskieren
Der schnellste Start ist das PII-Shield-Preset: eine einzelnepii-Regel, die email, phone, ssn, credit_card und ip maskiert.
Konfigurieren Sie es in der Konsole — keine Code-Änderungen, kein Key in
diesem Schritt.
Das Guardrail erstellen
Öffnen Sie in der Konsole Guardrails und klicken Sie auf New
guardrail. Wählen Sie das PII-Shield-Preset aus der
pii-Kategorie, oder verfassen Sie von Hand eine
pii-Regel mit der
Aktion mask über den obigen Entitäten. Speichern. (Schreibvorgänge
erfordern die Developer-Rolle oder höher.)In der Sandbox beweisen
Öffnen Sie den Test-Tab, fügen Sie „reply to jane@acme.com” ein,
wählen Sie die
input-Stage und führen Sie aus. Die Sandbox gibt reply to [EMAIL] zurück — lokal, ohne Upstream-Aufruf und ohne verbrauchtes
Kontingent.An einen Key anhängen
Bearbeiten Sie unter API Keys einen Key und wählen Sie das Guardrail
aus dem Guardrail-Dropdown, oder setzen Sie das Guardrail als
Workspace-Default, sodass jeder nicht angehängte Key es erbt. Die Bindung
lebt am Key im Gateway.
4. Das meiste maskieren, das Schlimmste blockieren — Pro-Entität-Overrides
Eine einzelne Regel kann viaentity_actions unterschiedliche Aktionen auf
unterschiedliche Entitäten anwenden. Maskieren Sie risikoarme Identifier, aber
hart-blockieren Sie die Entitäten, die Sie nie weitergeleitet haben wollen —
eine Regel statt dreier überlappender:
guardrail_blocked abgelehnt. Ein blockierter Request kostet kein
Kontingent — ein Block auf der Input-Stage feuert vor der Messung — und ist
als skip-retry markiert. Jeder entity_actions-Key muss eine auf der Regel
deklarierte Entität sein (eingebaut oder benutzerdefiniert); seine Aktion wird
gegen das Aktions-Set der Regel validiert.
5. Was heute beim Streaming funktioniert
Aktion und Stage interagieren unterschiedlich mit dem Streaming — kennen Sie die Matrix, bevor Sie sich darauf verlassen:Input-Stage mask oder block (jeder Antwortmodus)
Input-Stage mask oder block (jeder Antwortmodus)
Vollständig live. Der Prompt wird vor dem Upstream-Aufruf gescreent,
sodass Maskieren und Blockieren identisch funktionieren, ob die Antwort
streamt oder nicht. Das ist die Surface, die PII-Shield heute durchsetzt.
Output-Stage block
Output-Stage block
Durchgesetzt auf streamenden und nicht-streamenden Antworten. Bei einem
Stream schneidet ein Scanner den Stream mitten im Flug und gibt eine
Ersatznachricht aus, bevor blockierter Inhalt den Client erreicht; ein
Output-Block erstattet das vorab verbrauchte Kontingent.
Output-Stage mask
Output-Stage mask
Derzeit nur nicht-streamend. Bei einer gestreamten Antwort passiert
der ursprüngliche Chunk unmaskiert — In-Band-Stream-Umschreibung ist eine
geplante Erweiterung. Für Antwort-Maskierung heute verwenden Sie
nicht-streamende Requests oder verlassen Sie sich auf die Maskierung auf
der Input-Stage. Beweisen Sie Ihre exakte Stage/Stream-Kombination zuerst
im Test-Tab.
6. Sehen, was abgefangen wurde
Jede Regel, die feuert, zeichnet einen Match auf — Typ, Aktion, Stage und einen Detail-String — sichtbar auf dem Workspace-Matches-Feed (GET /api/guardrail/match, für jedes Mitglied offen). Von dort aus können Sie
gruppieren, filtern, nach CSV exportieren und Falsch-Positive markieren.
Rohwerte werden standardmäßig nicht geloggt. Der Log raw
content-Schalter eines Guardrails ist aus — die
datenschutzkonservative Haltung — sodass der Matches-Feed aufzeichnet, dass
eine PII-Regel gefeuert hat und welche Entität, aber nicht den
gematchten Teilstring (die E-Mail-Adresse selbst). Schalten Sie ihn pro
Guardrail nur ein, wenn Sie den Wert für die Triage brauchen; die
Einstellung ist nicht rückwirkend. PII in Ihrem eigenen Audit-Trail zu
erfassen, um ein PII-Leck zu debuggen, wäre selbstzerstörerisch.
7. Weitergehen
Für vollständige Residency-, Retention- und Recht-auf-Löschung-Kontrollen — einschließlich der Installation eines Compliance-Packs, das diese Guardrails für GDPR, HIPAA oder PCI DSS materialisiert — starten Sie von den Referenzseiten unten.Guardrails-Referenz
Jeder Regeltyp, jede Stage, jede Aktion, benutzerdefinierte Entitäten,
Versionierung und das Eval-Harness — die tiefe Referenz hinter dieser Seite.
Secret-Leakage
Das anmeldedaten-förmige Geschwister — AWS-, OpenAI-, GitHub-Tokens —
abgefangen vom Secrets-Blocker-Guardrail.
Unsichere Ausgabe
Screenen, was das Modell zurücksendet, nicht nur, was es empfängt.
Guardrails vs. Firewall
Wann Text zu screenen und wann Aktionen zu steuern sind — und warum Sie
meist beides wollen.
