Journalisation et confidentialité des guardrails

Quand une règle de guardrail se déclenche, OrcaRouter enregistre une correspondance afin que vous puissiez voir ce qui s’est déclenché et à quelle fréquence. La question de confidentialité est celle à laquelle cette page répond : cet enregistrement contient-il le texte sensible réel — l’email réel, le SSN, la clé API — ou juste le fait qu’une règle a correspondu ? Par défaut, il ne contient que le fait. La journalisation respectueuse de la vie privée des guardrails sur la passerelle hébergée est conservatrice exprès : la sous-chaîne correspondante n’est pas stockée à moins que vous n’activiez explicitement Log raw content pour ce guardrail, et basculer le toggle ne revient jamais sur des données que vous avez déjà journalisées. C’est une page d’atterrissage ciblée sur la posture de confidentialité du flux Matches. Pour le flux lui-même — parcourir, grouper, exporter — voir Flux des correspondances. Pour le moteur complet, voir la référence Guardrails.

1. Journalisation respectueuse de la vie privée : désactivée par défaut

Chaque guardrail porte un seul toggle par politique, Log raw content, et il est livré désactivé. Avec lui désactivé, une correspondance enregistre les métadonnées de ce qui s’est déclenché mais ne copie jamais le texte fautif dans le flux :

Enregistré avec le toggle DÉSACTIVÉ

Type de règle, action, étape et une courte chaîne de détail — assez pour savoir qu’une règle pii a masqué un email sur la requête, sans stocker l’adresse.

Ajouté uniquement quand ACTIVÉ

La ou les sous-chaînes correspondantes — le texte littéral que la règle a attrapé. Capturé uniquement pour les correspondances enregistrées après que vous avez activé le toggle.

La raison est celle que la plupart des équipes de conformité veulent par défaut : vous apprenez *qu’*un SSN est apparu dans votre trafic et comment la politique l’a géré, sans copier les données réglementées hors de la requête et dans votre propre store de diagnostic.

Désactivé par défaut est la posture conservatrice en matière de confidentialité. La sous-chaîne correspondante est la chose la plus sensible qu’un guardrail pourrait journaliser — c’est, par définition, la donnée que la règle existe pour attraper. OrcaRouter ne la stocke pas à moins que vous n’optiez par guardrail.

2. Ce que contient un enregistrement de correspondance

Une correspondance est un petit enregistrement de diagnostic à portée d’espace de travail. Avec Log raw content désactivé, elle porte des métadonnées uniquement :

Champ	Exemple	Présent quand le toggle est désactivé ?
Type de règle	`pii`, `regex`, `keyword`	Oui
Action	`block`, `mask`, `flag`	Oui
Étape	`input`, `output`	Oui
Détail	courte chaîne de classifieur (par exemple l’entité)	Oui
Sous-chaîne correspondante	`jane@acme.com`	Uniquement quand ACTIVÉ

Le champ de sous-chaîne correspondante est la seule chose que le toggle contrôle. Tout le reste est enregistré dans tous les cas, donc le flux est utile pour l’analyse de volume, de tendance et de mix d’actions même avec le contenu brut désactivé.

Vous pouvez exécuter tout un programme observer-ou-appliquer — voir où la PII entre, quelles règles se déclenchent le plus, si une politique est bruyante — purement sur les métadonnées. Activez la sous-chaîne uniquement pour la fenêtre étroite où vous avez besoin de voir exactement ce qui a correspondu pendant le triage.

3. Un exemple concret

Prenez un guardrail avec une règle pii qui masque email sur la requête, attaché à une clé. Un appelant envoie :

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

La règle masque l’adresse en [EMAIL] avant que le modèle ne la voie, et une correspondance atterrit dans le flux. Ce que cette correspondance contient dépend entièrement du toggle :

Log raw content DÉSACTIVÉ (défaut)

La correspondance enregistre : type de règle pii, action mask, étape input, et une chaîne de détail nommant l’entité email. Elle ne stocke pas jane@acme.com. Vous savez qu’un email a été masqué sur la requête ; vous ne pouvez pas relire l’email depuis le flux.

Log raw content ACTIVÉ

La même correspondance porte en plus la sous-chaîne correspondante — jane@acme.com — afin que vous puissiez confirmer précisément ce que la règle a attrapé lors d’une passe de triage.

La requête elle-même est identique dans les deux cas. Le toggle ne change que ce que le flux de diagnostic retient, jamais ce que l’appelant ou le modèle en amont vit.

4. L’activer (et la garantie de non-rétroactivité)

Log raw content est un réglage par guardrail. Modifier un guardrail est une action de console sous votre propre session et nécessite Developer+ dans l’espace de travail — seul l’appel /v1/* final utilise une clé de relais sk-orca-....

Ouvrir le guardrail

Dans la console, ouvrez Guardrails et modifiez la politique pour laquelle vous voulez capturer les sous-chaînes.

Activer Log raw content

Activez le toggle Log raw content et enregistrez. L’enregistrement écrit une ligne d’historique versionnée, donc le changement est auditable et réversible — voir Versioning.

La capture commence à partir de maintenant

À partir de la prochaine requête, les correspondances sur ce guardrail incluent la sous-chaîne correspondante. Les correspondances enregistrées avant que vous n’ayez basculé le toggle restent en métadonnées seules.

Le toggle n’est pas rétroactif — dans les deux sens. L’activer ne remplit pas a posteriori les sous-chaînes sur les correspondances que vous avez déjà journalisées ; ces enregistrements plus anciens restent en métadonnées seules pour toujours. Le désactiver arrête de capturer de nouvelles sous-chaînes mais n’efface pas les sous-chaînes déjà stockées sur les correspondances passées. Si vous avez besoin de les supprimer, voir §6.

5. Ce qui est capturé quand il est activé

Quand Log raw content est activé, le moteur attache le texte littéral correspondant à chaque violation, avec deux plafonds durs qui empêchent une entrée pathologique de faire enfler un seul enregistrement de correspondance :

Au plus 32 entrées correspondantes par violation.
Chaque entrée est plafonnée à 256 caractères.

Donc un guardrail qui se déclenche sur un énorme document stocke un échantillon borné et représentatif de ce qui a correspondu — pas le corps entier. La chaîne de détail est aussi indépendamment bornée en longueur. Ces plafonds existent pour l’hygiène de stockage ; traitez l’ensemble capturé comme une preuve de ce qui a correspondu, pas une transcription verbatim de toute la requête.

Même avec le toggle activé, un guardrail n’enregistre jamais que le texte qu’une règle a réellement fait correspondre. Le prompt environnant et le reste de la réponse ne sont jamais copiés dans le flux Matches. Les payloads complets de requête/réponse sont une préoccupation séparée des diagnostics de guardrail.

6. Supprimer les sous-chaînes déjà capturées

Parce que le toggle n’est pas rétroactif, le désactiver laisse les sous-chaînes antérieures en place. Deux surfaces les effacent :

Vous voulez supprimer	Comment
Une correspondance bruyante	Marquez-la comme faux positif — `POST /api/guardrail/match/:id/mark-fp` (Admin de l’espace de travail), ou l’action Mark false positive dans le flux.
Toutes les correspondances de guardrail pour un utilisateur	Une auto-suppression d’utilisateur déclenche une fenêtre de grâce de 30 jours, puis un scrub de PII qui cascade à travers les correspondances de guardrail, les journaux de requête et les events du firewall. Voir Compliance.

Pour ajuster une règle bavarde plutôt que nettoyer des données, le flux Ajuster les faux positifs parcourt le marquage et le raffinement des correspondances.

7. Qui peut lire quoi

Le flux Matches est une donnée de diagnostic à portée d’espace de travail. L’accès en lecture est ouvert à chaque membre actif ; l’action destructrice de faux positif est contrôlée plus haut :

Action	Route	Rôle
Lister / grouper / stats / exporter les correspondances	`GET /api/guardrail/match*`	Member
Détail d’une seule correspondance	`GET /api/guardrail/match/:id`	Member
Marquer / dé-marquer un faux positif	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Modifier un guardrail (incl. Log raw content)	`PUT /api/guardrail/`	Developer+

Ces routes de gestion s’authentifient avec votre session de console, pas une clé de relais. Les lectures n’exposent jamais une sous-chaîne que le toggle n’a pas capturée — il n’y a rien de plus à redacter au moment de la lecture, parce que rien de plus n’a été stocké.

8. Un défaut de confidentialité pratique

Pour la plupart des espaces de travail, la bonne forme est : laissez Log raw content désactivé, exécutez vos guardrails sur les métadonnées, et activez le toggle temporairement pour une seule politique quand vous déboguez activement pourquoi une règle se déclenche comme elle le fait. Puis désactivez-le de nouveau — les nouvelles correspondances cessent immédiatement de porter les sous-chaînes.

Cela s’associe naturellement à un déploiement en observation seule. Commencez par le Compliance Logger (flag-seulement), surveillez le flux des correspondances sur les métadonnées, et ne recourez au contenu brut que si une correspondance spécifique nécessite un regard plus rapproché.

9. Où aller ensuite

Flux des correspondances

Parcourez, groupez, filtrez et exportez chaque correspondance enregistrée.

Ajuster les faux positifs

Marquez et raffinez les correspondances pour faire taire une règle bruyante.

Versioning

Chaque bascule du toggle est un changement versionné et réversible.

Compliance

Rétention, effacement des personnes concernées, et rapports signés.

Pour la façon dont cela s’inscrit dans la pile de contrôle plus large, voir Guardrails vs firewall et Exfiltration de données. Pour le moteur complet — étapes, règles avancées et routes — lisez la référence Guardrails.

​1. Journalisation respectueuse de la vie privée : désactivée par défaut

Enregistré avec le toggle DÉSACTIVÉ

Ajouté uniquement quand ACTIVÉ

​2. Ce que contient un enregistrement de correspondance

​3. Un exemple concret

​4. L’activer (et la garantie de non-rétroactivité)

​5. Ce qui est capturé quand il est activé

​6. Supprimer les sous-chaînes déjà capturées

​7. Qui peut lire quoi

​8. Un défaut de confidentialité pratique

​9. Où aller ensuite

Flux des correspondances

Ajuster les faux positifs

Versioning

Compliance

1. Journalisation respectueuse de la vie privée : désactivée par défaut

2. Ce que contient un enregistrement de correspondance

3. Un exemple concret

4. L’activer (et la garantie de non-rétroactivité)

5. Ce qui est capturé quand il est activé

6. Supprimer les sous-chaînes déjà capturées

7. Qui peut lire quoi

8. Un défaut de confidentialité pratique

9. Où aller ensuite