Logowanie i prywatność guardrail

Gdy reguła guardrail zadziała, OrcaRouter rejestruje dopasowanie, byś mógł zobaczyć, co się potknęło i jak często. Pytanie o prywatność jest tym, na które odpowiada ta strona: czy ten zapis zawiera faktyczny wrażliwy tekst — prawdziwy email, SSN, klucz API — czy tylko fakt, że reguła się dopasowała? Domyślnie zawiera tylko fakt. Logowanie prywatności guardrail na hostowanej bramie jest konserwatywne celowo: dopasowany podłańcuch nie jest przechowywany, chyba że jawnie włączysz Log raw content dla tego guardrail, a przełączenie nigdy nie sięga wstecz po dane, które już zalogowałeś. To skupiona strona docelowa dla postawy prywatności strumienia Matches. Po sam strumień — przeglądanie, grupowanie, eksport — zobacz Strumień dopasowań. Po pełny silnik zobacz referencję Guardrails.

1. Logowanie prywatności guardrail: domyślnie wyłączone

Każdy guardrail niesie pojedynczy przełącznik per-polityka, Log raw content, i jest dostarczany wyłączony. Przy wyłączonym dopasowanie rejestruje metadane tego, co zadziałało, ale nigdy nie kopiuje obraźliwego tekstu do strumienia:

Rejestrowane przy WYŁĄCZONYM przełączniku

Typ reguły, akcja, etap i krótki łańcuch szczegółów — wystarczy, by wiedzieć, że reguła pii zamaskowała email na żądaniu, bez przechowywania adresu.

Dodawane tylko przy WŁĄCZONYM

Dopasowany(e) podłańcuch(y) — dosłowny tekst, który reguła wychwyciła. Przechwytywane tylko dla dopasowań zarejestrowanych po włączeniu przełącznika.

Uzasadnienie jest tym, czego większość zespołów zgodności chce domyślnie: dowiadujesz się, że SSN pojawił się w twoim ruchu i jak polityka go obsłużyła, bez kopiowania regulowanych danych z powrotem z żądania do twojego własnego magazynu diagnostycznego.

Domyślnie wyłączone to postawa konserwatywna wobec prywatności. Dopasowany podłańcuch to najbardziej wrażliwa rzecz, jaką guardrail mógłby zalogować — to z definicji dane, do których wychwycenia reguła istnieje. OrcaRouter nie przechowuje go, chyba że zgodzisz się per guardrail.

2. Co trzyma zapis dopasowania

Dopasowanie to mały, w zakresie przestrzeni roboczej zapis diagnostyczny. Przy wyłączonym Log raw content niesie tylko metadane:

Pole	Przykład	Obecne przy wyłączonym przełączniku?
Typ reguły	`pii`, `regex`, `keyword`	Tak
Akcja	`block`, `mask`, `flag`	Tak
Etap	`input`, `output`	Tak
Szczegół	krótki łańcuch klasyfikatora (np. encja)	Tak
Dopasowany podłańcuch	`jane@acme.com`	Tylko przy WŁĄCZONYM

Pole dopasowanego podłańcucha to jedyna rzecz, którą przełącznik bramkuje. Wszystko inne jest rejestrowane tak czy inaczej, więc strumień jest przydatny do analizy wolumenu, trendu i miksu akcji nawet przy wyłączonej surowej treści.

Możesz prowadzić cały program obserwuj-lub-egzekwuj — zobaczyć, gdzie PII wchodzi, które reguły działają najczęściej, czy polityka jest hałaśliwa — czysto na metadanych. Włącz podłańcuch tylko na wąskie okno, gdzie potrzebujesz podejrzeć dokładnie, co się dopasowało podczas triażu.

3. Jeden konkretny przykład

Weź guardrail z regułą pii, która maskuje email na żądaniu, powiązany z kluczem. Wywołujący wysyła:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

Reguła maskuje adres do [EMAIL], zanim model go zobaczy, a dopasowanie ląduje w strumieniu. Co to dopasowanie zawiera, zależy całkowicie od przełącznika:

Log raw content WYŁĄCZONE (domyślnie)

Dopasowanie rejestruje: typ reguły pii, akcję mask, etap input i łańcuch szczegółów nazywający encję email. Nie przechowuje jane@acme.com. Wiesz, że email został zamaskowany na żądaniu; nie możesz odczytać emaila ze strumienia.

Log raw content WŁĄCZONE

To samo dopasowanie dodatkowo niesie dopasowany podłańcuch — jane@acme.com — więc możesz potwierdzić dokładnie, co reguła wychwyciła podczas przejścia triażowego.

Samo żądanie jest identyczne w obu przypadkach. Przełącznik zmienia tylko to, co strumień diagnostyczny zachowuje, nigdy tego, czego doświadcza wywołujący lub model nadrzędny.

4. Włączanie go (i gwarancja braku działania wstecznego)

Log raw content to ustawienie per-guardrail. Edycja guardrail to akcja konsoli pod twoją własną sesją i wymaga Developer+ w przestrzeni roboczej — tylko końcowe wywołanie /v1/* używa klucza relay sk-orca-....

Otwórz guardrail

W konsoli otwórz Guardrails i edytuj politykę, dla której chcesz przechwytywać podłańcuchy.

Włącz Log raw content

Włącz przełącznik Log raw content i zapisz. Zapis zapisuje wersjonowany wiersz historii, więc zmiana jest audytowalna i odwracalna — zobacz Wersjonowanie.

Przechwytywanie zaczyna się naprzód

Od następnego żądania dopasowania na tym guardrail zawierają dopasowany podłańcuch. Dopasowania zarejestrowane przed przełączeniem pozostają tylko-metadane.

Przełącznik nie działa wstecznie — w obie strony. Włączenie go nie uzupełnia podłańcuchów na dopasowaniach, które już zalogowałeś; te starsze zapisy pozostają tylko-metadane na zawsze. Wyłączenie go zatrzymuje przechwytywanie nowych podłańcuchów, ale nie wymazuje podłańcuchów już przechowanych na przeszłych dopasowaniach. Jeśli potrzebujesz, by zniknęły, zobacz §6.

5. Co jest przechwytywane, gdy jest włączone

Gdy Log raw content jest włączone, silnik dołącza dosłowny dopasowany tekst do każdego naruszenia, z dwoma twardymi limitami, które trzymają jedno patologiczne wejście przed rozdęciem pojedynczego zapisu dopasowania:

Co najwyżej 32 dopasowane wpisy na naruszenie.
Każdy wpis jest ograniczony do 256 znaków.

Więc guardrail, który działa na ogromnym dokumencie, przechowuje ograniczoną, reprezentatywną próbkę tego, co się dopasowało — nie całe ciało. Łańcuch szczegółów jest niezależnie przycinany na długość też. Te limity istnieją dla higieny przechowywania; traktuj przechwycony zestaw jako dowód co się dopasowało, nie dosłowny transkrypt całego żądania.

Nawet przy włączonym przełączniku guardrail kiedykolwiek rejestruje tylko tekst, który reguła faktycznie dopasowała. Otaczający prompt i reszta odpowiedzi nigdy nie są kopiowane do strumienia Matches. Pełne payloady żądania/odpowiedzi to osobne zmartwienie od diagnostyki guardrail.

6. Usuwanie podłańcuchów, które już przechwyciłeś

Ponieważ przełącznik nie działa wstecznie, wyłączenie go zostawia poprzednie podłańcuchy na miejscu. Dwie powierzchnie je czyszczą:

Chcesz usunąć	Jak
Jedno hałaśliwe dopasowanie	Oznacz je jako fałszywie pozytywne — `POST /api/guardrail/match/:id/mark-fp` (Admin przestrzeni roboczej) lub akcja Mark false positive w strumieniu.
Wszystkie dopasowania guardrail dla użytkownika	Samousunięcie użytkownika wyzwala 30-dniowe okno karencji, potem czyszczenie PII, które kaskaduje przez dopasowania guardrail, logi żądań i zdarzenia firewalla. Zobacz Compliance.

Po strojenie gadatliwej reguły, a nie czyszczenie danych, przepływ Strojenie fałszywie pozytywnych przeprowadza przez oznaczanie i dopracowywanie dopasowań.

7. Kto może co czytać

Strumień Matches to dane diagnostyczne w zakresie przestrzeni roboczej. Dostęp do odczytu jest otwarty dla każdego aktywnego członka; destrukcyjna akcja fałszywie pozytywnego jest bramkowana wyżej:

Akcja	Trasa	Rola
Listuj / grupuj / statystyki / eksportuj dopasowania	`GET /api/guardrail/match*`	Member
Szczegół pojedynczego dopasowania	`GET /api/guardrail/match/:id`	Member
Oznacz / odznacz fałszywie pozytywne	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Edytuj guardrail (w tym Log raw content)	`PUT /api/guardrail/`	Developer+

Te trasy zarządzania uwierzytelniają się twoją sesją konsoli, nie kluczem relay. Odczyty nigdy nie ujawniają podłańcucha, którego przełącznik nie przechwycił — nie ma nic dodatkowego do redagowania przy odczycie, bo nic dodatkowego nie zostało przechowane.

8. Praktyczny domyślny stan prywatności

Dla większości przestrzeni roboczych właściwy kształt to: zostaw Log raw content wyłączone, uruchamiaj swoje guardrails na metadanych i przełącz włącznik tymczasowo dla pojedynczej polityki, gdy aktywnie debugujesz, dlaczego reguła działa tak, jak działa. Potem przełącz z powrotem na off — nowe dopasowania natychmiast przestają nieść podłańcuchy.

To paruje się naturalnie z wdrożeniem tylko-obserwacja. Zacznij od Compliance Logger (tylko-flag), obserwuj strumień Matches na metadanych i sięgaj po surową treść tylko, jeśli konkretne dopasowanie wymaga bliższego spojrzenia.

9. Dokąd dalej

Strumień dopasowań

Przeglądaj, grupuj, filtruj i eksportuj każde zarejestrowane dopasowanie.

Strojenie fałszywie pozytywnych

Oznaczaj i dopracowuj dopasowania, by wyciszyć hałaśliwą regułę.

Wersjonowanie

Każde przełączenie to wersjonowana, odwracalna zmiana.

Compliance

Retencja, usuwanie danych podmiotu i podpisane raporty.

Jak to pasuje do szerszego stosu kontrolnego, zobacz Guardrails vs firewall i Eksfiltracja danych. Po kompletny silnik — etapy, zaawansowane reguły i trasy — przeczytaj referencję Guardrails.

​1. Logowanie prywatności guardrail: domyślnie wyłączone

Rejestrowane przy WYŁĄCZONYM przełączniku

Dodawane tylko przy WŁĄCZONYM

​2. Co trzyma zapis dopasowania

​3. Jeden konkretny przykład

​4. Włączanie go (i gwarancja braku działania wstecznego)

​5. Co jest przechwytywane, gdy jest włączone

​6. Usuwanie podłańcuchów, które już przechwyciłeś

​7. Kto może co czytać

​8. Praktyczny domyślny stan prywatności

​9. Dokąd dalej

Strumień dopasowań

Strojenie fałszywie pozytywnych

Wersjonowanie

Compliance

1. Logowanie prywatności guardrail: domyślnie wyłączone

2. Co trzyma zapis dopasowania

3. Jeden konkretny przykład

4. Włączanie go (i gwarancja braku działania wstecznego)

5. Co jest przechwytywane, gdy jest włączone

6. Usuwanie podłańcuchów, które już przechwyciłeś

7. Kto może co czytać

8. Praktyczny domyślny stan prywatności

9. Dokąd dalej