Guardrail-Logging und Datenschutz

Wenn eine Guardrail-Regel feuert, zeichnet OrcaRouter einen Match auf, damit Sie sehen können, was ausgelöst hat und wie oft. Die Datenschutzfrage ist die, die diese Seite beantwortet: Enthält dieser Eintrag den tatsächlichen sensiblen Text — die echte E-Mail, die SSN, den API-Key — oder nur die Tatsache, dass eine Regel gematcht hat? Standardmäßig enthält er nur die Tatsache. Guardrail-Datenschutz-Logging auf dem gehosteten Gateway ist absichtlich konservativ: Der gematchte Teilstring wird nicht gespeichert, es sei denn, Sie schalten Log raw content für dieses Guardrail explizit ein, und das Umlegen des Toggles greift nie auf bereits geloggte Daten zurück. Dies ist eine fokussierte Landing-Page für die Datenschutz-Haltung des Matches-Feeds. Für den Feed selbst — Durchsuchen, Gruppieren, Exportieren — siehe Matches-Feed. Für die vollständige Engine siehe die Guardrails-Referenz.

1. Guardrail-Datenschutz-Logging: standardmäßig aus

Jedes Guardrail trägt einen einzelnen Pro-Policy-Toggle, Log raw content, und er wird ausgeschaltet ausgeliefert. Mit ihm aus zeichnet ein Match die Metadaten dessen auf, was gefeuert hat, kopiert aber nie den anstößigen Text in den Feed:

Aufgezeichnet mit Toggle AUS

Regeltyp, Action, Stage und einen kurzen Detail-String — genug, um zu wissen, dass eine pii-Regel eine email im Request maskiert hat, ohne die Adresse zu speichern.

Nur hinzugefügt, wenn EIN

Der/die gematchte(n) Teilstring(s) — der wörtliche Text, den die Regel gefangen hat. Nur für Matches erfasst, die nach dem Aktivieren des Toggles aufgezeichnet werden.

Die Begründung ist die, die die meisten Compliance-Teams standardmäßig wollen: Sie erfahren, dass eine SSN in Ihrem Traffic aufgetaucht ist und wie die Policy sie behandelt hat, ohne regulierte Daten aus dem Request heraus und in Ihren eigenen Diagnose-Speicher zurückzukopieren.

Standardmäßig aus ist die datenschutzkonservative Haltung. Der gematchte Teilstring ist das Sensibelste, was ein Guardrail loggen könnte — er ist per Definition die Daten, zu deren Erfassung die Regel existiert. OrcaRouter speichert ihn nicht, es sei denn, Sie entscheiden sich pro Guardrail dafür.

2. Was ein Match-Eintrag enthält

Ein Match ist ein kleiner, workspace-bezogener Diagnose-Eintrag. Mit Log raw content aus trägt er nur Metadaten:

Feld	Beispiel	Vorhanden, wenn Toggle aus?
Regeltyp	`pii`, `regex`, `keyword`	Ja
Action	`block`, `mask`, `flag`	Ja
Stage	`input`, `output`	Ja
Detail	kurzer Klassifizierer-String (z. B. die Entity)	Ja
Gematchter Teilstring	`jane@acme.com`	Nur wenn EIN

Das Feld für den gematchten Teilstring ist das einzige, das der Toggle gatet. Alles andere wird in jedem Fall aufgezeichnet, sodass der Feed für Volumen-, Trend- und Action-Mix-Analysen nützlich ist, selbst mit ausgeschaltetem Raw Content.

Sie können ein gesamtes Beobachten-oder-Durchsetzen-Programm betreiben — sehen, wo PII eintritt, welche Regeln am häufigsten feuern, ob eine Policy verrauscht ist — rein auf den Metadaten. Schalten Sie den Teilstring nur für das schmale Fenster ein, in dem Sie genau sehen müssen, was während des Triage gematcht hat.

3. Ein konkretes Beispiel

Nehmen Sie ein Guardrail mit einer pii-Regel, die email im Request maskiert, an einen Key angehängt. Ein Aufrufer sendet:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

Die Regel maskiert die Adresse zu [EMAIL], bevor das Modell sie sieht, und ein Match landet im Feed. Was dieser Match enthält, hängt vollständig vom Toggle ab:

Log raw content AUS (Standard)

Der Match zeichnet auf: Regeltyp pii, Action mask, Stage input und einen Detail-String, der die email-Entity benennt. Er speichert jane@acme.com nicht. Sie wissen, dass eine E-Mail im Request maskiert wurde; Sie können die E-Mail nicht aus dem Feed auslesen.

Log raw content EIN

Derselbe Match trägt zusätzlich den gematchten Teilstring — jane@acme.com — sodass Sie während eines Triage-Durchgangs präzise bestätigen können, was die Regel gefangen hat.

Der Request selbst ist in beiden Fällen identisch. Der Toggle ändert nur, was der Diagnose-Feed behält, nie das, was der Aufrufer oder das Upstream-Modell erlebt.

4. Das Einschalten (und die Nicht-Rückwirkend-Garantie)

Log raw content ist eine Pro-Guardrail-Einstellung. Das Bearbeiten eines Guardrails ist eine Konsolen-Aktion unter Ihrer eigenen Session und erfordert Developer+ im Workspace — nur der finale /v1/*-Aufruf verwendet einen sk-orca-...-Relay-Key.

Das Guardrail öffnen

Öffnen Sie in der Konsole Guardrails und bearbeiten Sie die Policy, für die Sie Teilstrings erfassen wollen.

Log raw content aktivieren

Schalten Sie den Toggle Log raw content ein und speichern. Das Speichern schreibt eine versionierte Historie-Zeile, sodass die Änderung auditierbar und revertierbar ist — siehe Versionierung.

Die Erfassung beginnt ab jetzt

Ab dem nächsten Request enthalten Matches auf diesem Guardrail den gematchten Teilstring. Matches, die vor dem Umlegen des Toggles aufgezeichnet wurden, bleiben nur-Metadaten.

Der Toggle ist nicht rückwirkend — in beide Richtungen. Das Einschalten füllt keine Teilstrings auf bereits geloggte Matches nach; jene älteren Einträge bleiben für immer nur-Metadaten. Das Ausschalten stoppt die Erfassung neuer Teilstrings, löscht aber keine bereits auf vergangenen Matches gespeicherten Teilstrings. Wenn Sie diese loswerden müssen, siehe §6.

5. Was erfasst wird, wenn er ein ist

Wenn Log raw content ein ist, hängt die Engine den wörtlich gematchten Text an jeden Verstoß an, mit zwei harten Limits, die verhindern, dass ein pathologischer Input einen einzelnen Match-Eintrag aufbläht:

Höchstens 32 gematchte Einträge pro Verstoß.
Jeder Eintrag ist auf 256 Zeichen begrenzt.

Ein Guardrail, das auf einem riesigen Dokument feuert, speichert also ein begrenztes, repräsentatives Sample dessen, was gematcht hat — nicht den gesamten Body. Der Detail-String ist ebenfalls unabhängig längenbegrenzt. Diese Limits existieren für die Speicherhygiene; behandeln Sie den erfassten Satz als Beweis dafür, was gematcht hat, nicht als wörtliches Transkript des gesamten Requests.

Selbst mit eingeschaltetem Toggle zeichnet ein Guardrail nur jemals Text auf, den eine Regel tatsächlich gematcht hat. Der umgebende Prompt und der Rest der Response werden nie in den Matches-Feed kopiert. Vollständige Request-/Response-Payloads sind ein von der Guardrail-Diagnose getrenntes Anliegen.

6. Bereits erfasste Teilstrings entfernen

Da der Toggle nicht rückwirkend ist, lässt das Ausschalten frühere Teilstrings unangetastet. Zwei Oberflächen löschen sie:

Was Sie entfernen wollen	Wie
Einen verrauschten Match	Markieren Sie ihn als Fehlalarm — `POST /api/guardrail/match/:id/mark-fp` (Workspace-Admin), oder die Action Mark false positive im Feed.
Alle Guardrail-Matches für einen Benutzer	Eine Selbstlöschung des Benutzers löst ein 30-Tage-Schonfenster aus, dann eine PII-Bereinigung, die durch Guardrail-Matches, Request-Logs und Firewall-Events kaskadiert. Siehe Compliance.

Zum Tunen einer geschwätzigen Regel statt zur Bereinigung von Daten führt der Flow Fehlalarme tunen durch das Markieren und Verfeinern von Matches.

7. Wer was lesen kann

Der Matches-Feed sind workspace-bezogene Diagnose-Daten. Lesezugriff ist für jedes aktive Mitglied offen; die destruktive Fehlalarm-Action ist höher gegated:

Action	Route	Rolle
Matches auflisten / gruppieren / Stats / exportieren	`GET /api/guardrail/match*`	Member
Detail eines einzelnen Matches	`GET /api/guardrail/match/:id`	Member
Fehlalarm markieren / Markierung aufheben	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Ein Guardrail bearbeiten (inkl. Log raw content)	`PUT /api/guardrail/`	Developer+

Diese Management-Routen authentifizieren mit Ihrer Konsolen-Session, nicht mit einem Relay-Key. Lesevorgänge legen nie einen Teilstring offen, den der Toggle nicht erfasst hat — es gibt nichts Zusätzliches, das zur Lesezeit zu redigieren wäre, weil nichts Zusätzliches gespeichert wurde.

8. Ein praktischer Datenschutz-Default

Für die meisten Workspaces ist die richtige Form: Log raw content ausgeschaltet lassen, Ihre Guardrails auf Metadaten betreiben und den Toggle vorübergehend für eine einzelne Policy einschalten, wenn Sie aktiv debuggen, warum eine Regel so feuert, wie sie feuert. Schalten Sie ihn dann wieder aus — neue Matches hören sofort auf, Teilstrings zu tragen.

Das paart sich natürlich mit einem nur-beobachtenden Rollout. Beginnen Sie mit dem Compliance Logger (nur-flag), beobachten Sie den Matches-Feed auf Metadaten und greifen Sie nur dann zu Raw Content, wenn ein bestimmter Match einen genaueren Blick braucht.

9. Wie es weitergeht

Matches-Feed

Durchsuchen, gruppieren, filtern und exportieren Sie jeden aufgezeichneten Match.

Fehlalarme tunen

Markieren und verfeinern Sie Matches, um eine verrauschte Regel zu beruhigen.

Versionierung

Jedes Umlegen des Toggles ist eine versionierte, revertierbare Änderung.

Compliance

Aufbewahrung, Löschung von Betroffenendaten und signierte Berichte.

Wie dies in den umfassenderen Control-Stack passt, siehe Guardrails vs. Firewall und Datenexfiltration. Für die vollständige Engine — Stages, erweiterte Regeln und Routen — lesen Sie die Guardrails-Referenz.

​1. Guardrail-Datenschutz-Logging: standardmäßig aus

Aufgezeichnet mit Toggle AUS

Nur hinzugefügt, wenn EIN

​2. Was ein Match-Eintrag enthält

​3. Ein konkretes Beispiel

​4. Das Einschalten (und die Nicht-Rückwirkend-Garantie)

​5. Was erfasst wird, wenn er ein ist

​6. Bereits erfasste Teilstrings entfernen

​7. Wer was lesen kann

​8. Ein praktischer Datenschutz-Default

​9. Wie es weitergeht

Matches-Feed

Fehlalarme tunen

Versionierung

Compliance

1. Guardrail-Datenschutz-Logging: standardmäßig aus

2. Was ein Match-Eintrag enthält

3. Ein konkretes Beispiel

4. Das Einschalten (und die Nicht-Rückwirkend-Garantie)

5. Was erfasst wird, wenn er ein ist

6. Bereits erfasste Teilstrings entfernen

7. Wer was lesen kann

8. Ein praktischer Datenschutz-Default

9. Wie es weitergeht