Logging e privacy dei guardrail

Quando una regola di guardrail scatta, OrcaRouter registra un match così puoi vedere cosa è scattato e quanto spesso. La domanda sulla privacy è quella a cui questa pagina risponde: quel record contiene il testo sensibile effettivo — l’email reale, l’SSN, la chiave API — o solo il fatto che una regola ha corrisposto? Per default contiene solo il fatto. Il logging privacy dei guardrail sul gateway gestito è conservativo di proposito: la sottostringa corrispondente non viene memorizzata a meno che tu non attivi esplicitamente Log raw content per quel guardrail, e azionare il toggle non torna mai sui dati che hai già loggato. Questa è una landing focalizzata sulla postura di privacy del feed dei Matches. Per il feed stesso — sfogliare, raggruppare, esportare — vedi Feed dei match. Per il motore completo, vedi il riferimento Guardrails.

1. Logging privacy dei guardrail: disattivato per default

Ogni guardrail porta un singolo toggle per-policy, Log raw content, e parte disattivato. Con esso disattivato, un match registra i metadati di ciò che è scattato ma non copia mai il testo incriminato nel feed:

Registrato con il toggle DISATTIVATO

Tipo di regola, azione, stage e una breve stringa di detail — abbastanza per sapere che una regola pii ha mascherato un’email sulla richiesta, senza memorizzare l’indirizzo.

Aggiunto solo quando ATTIVO

Le sottostringhe corrispondenti — il testo letterale che la regola ha catturato. Catturate solo per i match registrati dopo che abiliti il toggle.

Il razionale è quello che la maggior parte dei team di compliance vuole per default: scopri che un SSN è apparso nel tuo traffico e come la policy l’ha gestito, senza copiare dati regolamentati fuori dalla richiesta e nel tuo store diagnostico.

Disattivato per default è la postura conservativa sulla privacy. La sottostringa corrispondente è la cosa più sensibile che un guardrail potrebbe loggare — è, per definizione, il dato che la regola esiste per catturare. OrcaRouter non lo memorizza a meno che tu non opti per esso per ciascun guardrail.

2. Cosa contiene un record di match

Un match è un piccolo record diagnostico con scope a livello di workspace. Con Log raw content disattivato, porta solo metadati:

Campo	Esempio	Presente quando il toggle è disattivato?
Tipo di regola	`pii`, `regex`, `keyword`	Sì
Azione	`block`, `mask`, `flag`	Sì
Stage	`input`, `output`	Sì
Detail	breve stringa di classificazione (es. l’entità)	Sì
Sottostringa corrispondente	`jane@acme.com`	Solo quando ATTIVO

Il campo della sottostringa corrispondente è l’unica cosa che il toggle gestisce. Tutto il resto è registrato in entrambi i casi, quindi il feed è utile per analisi di volume, trend e mix di azioni anche con il contenuto grezzo disattivato.

Puoi eseguire un intero programma di osservazione-o-applicazione — vedere dove entra la PII, quali regole scattano di più, se una policy è rumorosa — puramente sui metadati. Attiva la sottostringa solo per la finestra ristretta in cui devi osservare esattamente cosa ha corrisposto durante il triage.

3. Un esempio concreto

Prendi un guardrail con una regola pii che maschera email sulla richiesta, collegato a una chiave. Un chiamante invia:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

La regola maschera l’indirizzo in [EMAIL] prima che il modello lo veda, e un match atterra nel feed. Cosa contiene quel match dipende interamente dal toggle:

Log raw content DISATTIVATO (default)

Il match registra: tipo di regola pii, azione mask, stage input e una stringa di detail che nomina l’entità email. Non memorizza jane@acme.com. Sai che un’email è stata mascherata sulla richiesta; non puoi rileggere l’email fuori dal feed.

Log raw content ATTIVO

Lo stesso match porta in aggiunta la sottostringa corrispondente — jane@acme.com — così puoi confermare precisamente cosa la regola ha catturato durante un passaggio di triage.

La richiesta stessa è identica in entrambi i casi. Il toggle cambia solo cosa il feed diagnostico conserva, mai cosa il chiamante o il modello upstream sperimentano.

4. Attivarlo (e la garanzia non-retroattiva)

Log raw content è un’impostazione per-guardrail. Modificare un guardrail è un’azione di console sotto la tua sessione e richiede Developer+ nel workspace — solo la chiamata /v1/* finale usa una chiave di relay sk-orca-....

Apri il guardrail

Nella console, apri Guardrails e modifica la policy per cui vuoi catturare le sottostringhe.

Abilita Log raw content

Attiva il toggle Log raw content e salva. Il salvataggio scrive una riga di cronologia versionata, quindi la modifica è auditabile e ripristinabile — vedi Versioning.

La cattura inizia in avanti

Dalla richiesta successiva in poi, i match su questo guardrail includono la sottostringa corrispondente. I match registrati prima che azionassi il toggle restano solo metadati.

Il toggle non è retroattivo — in entrambe le direzioni. Attivarlo non riempie a ritroso le sottostringhe sui match che hai già loggato; quei record più vecchi restano solo metadati per sempre. Disattivarlo ferma la cattura di nuove sottostringhe ma non cancella le sottostringhe già memorizzate sui match passati. Se ti servono rimosse, vedi §6.

5. Cosa viene catturato quando è attivo

Quando Log raw content è attivo, il motore allega il testo letterale corrispondente a ogni violazione, con due limiti rigidi che impediscono a un input patologico di gonfiare un singolo record di match:

Al massimo 32 voci corrispondenti per violazione.
Ogni voce è limitata a 256 caratteri.

Quindi un guardrail che scatta su un documento enorme memorizza un campione limitato e rappresentativo di ciò che ha corrisposto — non l’intero corpo. La stringa di detail è anch’essa limitata in lunghezza in modo indipendente. Questi limiti esistono per l’igiene dello storage; tratta l’insieme catturato come evidenza di cosa ha corrisposto, non come una trascrizione verbatim dell’intera richiesta.

Anche con il toggle attivo, un guardrail registra sempre solo il testo che una regola ha effettivamente corrisposto. Il prompt circostante e il resto della risposta non vengono mai copiati nel feed dei Matches. I payload completi di richiesta/risposta sono una preoccupazione separata dalla diagnostica dei guardrail.

6. Rimuovere sottostringhe che hai già catturato

Poiché il toggle non è retroattivo, disattivarlo lascia in posizione le sottostringhe precedenti. Due superfici le cancellano:

Vuoi rimuovere	Come
Un match rumoroso	Segnalalo come falso positivo — `POST /api/guardrail/match/:id/mark-fp` (Admin del workspace), o l’azione Mark false positive nel feed.
Tutti i match di guardrail per un utente	Un’auto-eliminazione dell’utente attiva una finestra di grazia di 30 giorni, poi uno scrub di PII che si propaga attraverso match di guardrail, request log ed eventi del firewall. Vedi Compliance.

Per mettere a punto una regola chiacchierona anziché fare lo scrub dei dati, il flusso Tuning dei falsi positivi percorre la segnalazione e l’affinamento dei match.

7. Chi può leggere cosa

Il feed dei Matches è dato diagnostico con scope a livello di workspace. L’accesso in lettura è aperto a ogni member attivo; l’azione distruttiva di falso positivo è gestita più in alto:

Azione	Rotta	Ruolo
Elenca / raggruppa / stats / esporta match	`GET /api/guardrail/match*`	Member
Dettaglio di un singolo match	`GET /api/guardrail/match/:id`	Member
Segna / desegna falso positivo	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Modifica un guardrail (incl. Log raw content)	`PUT /api/guardrail/`	Developer+

Queste rotte di management si autenticano con la tua sessione della console, non con una chiave di relay. Le letture non espongono mai una sottostringa che il toggle non ha catturato — non c’è nulla di extra da redigere in lettura, perché nulla di extra è stato memorizzato.

8. Un default di privacy pratico

Per la maggior parte dei workspace la forma giusta è: lascia Log raw content disattivato, esegui i tuoi guardrails sui metadati, e aziona il toggle temporaneamente per una singola policy quando stai attivamente debuggando perché una regola scatta nel modo in cui lo fa. Poi disattivalo di nuovo — i nuovi match smettono di portare sottostringhe immediatamente.

Questo si abbina naturalmente a un rollout solo osservazione. Parti dal Compliance Logger (solo flag), osserva il feed dei Matches sui metadati, e ricorri al contenuto grezzo solo se un match specifico ha bisogno di uno sguardo più ravvicinato.

9. Dove andare dopo

Feed dei match

Sfoglia, raggruppa, filtra ed esporta ogni match registrato.

Tuning dei falsi positivi

Segnala e affina i match per silenziare una regola rumorosa.

Versioning

Ogni azionamento del toggle è una modifica versionata e ripristinabile.

Compliance

Retention, cancellazione del soggetto dei dati e report firmati.

Per come questo si inserisce nel control stack più ampio, vedi Guardrails vs firewall e Esfiltrazione di dati. Per il motore completo — stage, regole avanzate e rotte — leggi il riferimento Guardrails.

​1. Logging privacy dei guardrail: disattivato per default

Registrato con il toggle DISATTIVATO

Aggiunto solo quando ATTIVO

​2. Cosa contiene un record di match

​3. Un esempio concreto

​4. Attivarlo (e la garanzia non-retroattiva)

​5. Cosa viene catturato quando è attivo

​6. Rimuovere sottostringhe che hai già catturato

​7. Chi può leggere cosa

​8. Un default di privacy pratico

​9. Dove andare dopo

Feed dei match

Tuning dei falsi positivi

Versioning

Compliance

1. Logging privacy dei guardrail: disattivato per default

2. Cosa contiene un record di match

3. Un esempio concreto

4. Attivarlo (e la garanzia non-retroattiva)

5. Cosa viene catturato quando è attivo

6. Rimuovere sottostringhe che hai già catturato

7. Chi può leggere cosa

8. Un default di privacy pratico

9. Dove andare dopo