Registro y privacidad de guardrails

Cuando una regla de guardrail se dispara, OrcaRouter registra una coincidencia para que puedas ver qué se activó y con qué frecuencia. La pregunta de privacidad es la que esta página responde: ¿ese registro contiene el texto sensible real — el email real, el SSN, la clave API — o solo el hecho de que una regla coincidió? Por defecto contiene solo el hecho. El registro de privacidad de guardrails en el gateway alojado es conservador a propósito: la subcadena coincidente no se almacena a menos que actives explícitamente Log raw content para ese guardrail, y cambiar el toggle nunca alcanza datos que ya hayas registrado. Este es un aterrizaje enfocado para la postura de privacidad del feed de Matches. Para el feed en sí — navegar, agrupar, exportar — ver Feed de coincidencias. Para el motor completo, ver la referencia de Guardrails.

1. Registro de privacidad de guardrails: apagado por defecto

Cada guardrail lleva un solo toggle por política, Log raw content, y viene apagado. Con él apagado, una coincidencia registra los metadatos de lo que se disparó pero nunca copia el texto ofensivo al feed:

Registrado con el toggle APAGADO

Tipo de regla, acción, etapa y una cadena de detalle corta — suficiente para saber que una regla pii enmascaró un email en la solicitud, sin almacenar la dirección.

Añadido solo cuando está ENCENDIDO

La(s) subcadena(s) coincidente(s) — el texto literal que la regla capturó. Capturado solo para coincidencias registradas después de que habilites el toggle.

La razón es la que la mayoría de los equipos de cumplimiento quieren por defecto: aprendes que un SSN apareció en tu tráfico y cómo lo manejó la política, sin copiar datos regulados de vuelta fuera de la solicitud y dentro de tu propio almacén diagnóstico.

Apagado por defecto es la postura conservadora con la privacidad. La subcadena coincidente es lo más sensible que un guardrail podría registrar — es, por definición, los datos que la regla existe para capturar. OrcaRouter no la almacena a menos que optes por ello por guardrail.

2. Qué contiene un registro de coincidencia

Una coincidencia es un registro diagnóstico pequeño, con alcance de espacio de trabajo. Con Log raw content apagado, lleva solo metadatos:

Campo	Ejemplo	¿Presente cuando el toggle está apagado?
Tipo de regla	`pii`, `regex`, `keyword`	Sí
Acción	`block`, `mask`, `flag`	Sí
Etapa	`input`, `output`	Sí
Detalle	cadena clasificadora corta (p. ej. la entidad)	Sí
Subcadena coincidente	`jane@acme.com`	Solo cuando está ENCENDIDO

El campo de subcadena coincidente es lo único que el toggle controla. Todo lo demás se registra en cualquier caso, así que el feed es útil para análisis de volumen, tendencia y mezcla de acciones incluso con el contenido en bruto apagado.

Puedes ejecutar un programa entero de observar-o-aplicar — ver dónde entra la PII, qué reglas se disparan más, si una política es ruidosa — puramente sobre los metadatos. Activa la subcadena solo para la ventana estrecha donde necesitas ver con tus ojos exactamente qué coincidió durante el triaje.

3. Un ejemplo concreto

Toma un guardrail con una regla pii que enmascara email en la solicitud, vinculado a una clave. Un llamador envía:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

La regla enmascara la dirección a [EMAIL] antes de que el modelo la vea, y una coincidencia aterriza en el feed. Lo que esa coincidencia contiene depende enteramente del toggle:

Log raw content APAGADO (por defecto)

La coincidencia registra: tipo de regla pii, acción mask, etapa input, y una cadena de detalle que nombra la entidad email. No almacena jane@acme.com. Sabes que un email fue enmascarado en la solicitud; no puedes leer el email de vuelta del feed.

Log raw content ENCENDIDO

La misma coincidencia lleva adicionalmente la subcadena coincidente — jane@acme.com — para que puedas confirmar precisamente qué capturó la regla durante una pasada de triaje.

La solicitud en sí es idéntica en ambos casos. El toggle cambia solo lo que el feed diagnóstico retiene, nunca lo que el llamador o el modelo upstream experimenta.

4. Activarlo (y la garantía no retroactiva)

Log raw content es un ajuste por guardrail. Editar un guardrail es una acción de consola bajo tu propia sesión y requiere Developer+ en el espacio de trabajo — solo la llamada final /v1/* usa una clave de relay sk-orca-....

Abre el guardrail

En la consola, abre Guardrails y edita la política para la que quieres capturar subcadenas.

Habilita Log raw content

Activa el toggle Log raw content y guarda. Guardar escribe una fila de historial versionada, así que el cambio es auditable y revertible — ver Versionado.

La captura empieza hacia adelante

Desde la siguiente solicitud en adelante, las coincidencias en este guardrail incluyen la subcadena coincidente. Las coincidencias registradas antes de que cambiaras el toggle permanecen solo-metadatos.

El toggle no es retroactivo — en ambos sentidos. Activarlo no rellena hacia atrás subcadenas en coincidencias que ya registraste; esos registros más antiguos permanecen solo-metadatos para siempre. Apagarlo detiene la captura de nuevas subcadenas pero no borra subcadenas ya almacenadas en coincidencias pasadas. Si necesitas que esas desaparezcan, ver §6.

5. Qué se captura cuando está encendido

Cuando Log raw content está encendido, el motor adjunta el texto coincidente literal a cada violación, con dos topes duros que evitan que una entrada patológica infle un solo registro de coincidencia:

A lo sumo 32 entradas coincidentes por violación.
Cada entrada está topada en 256 caracteres.

Así que un guardrail que se dispara sobre un documento enorme almacena una muestra acotada y representativa de lo que coincidió — no el cuerpo entero. La cadena de detalle también está acotada en longitud independientemente. Estos topes existen para higiene de almacenamiento; trata el conjunto capturado como evidencia de qué coincidió, no una transcripción textual de toda la solicitud.

Incluso con el toggle encendido, un guardrail solo registra texto que una regla realmente coincidió. El prompt circundante y el resto de la respuesta nunca se copian al feed de Matches. Los payloads completos de solicitud/respuesta son una preocupación separada de los diagnósticos de guardrail.

6. Eliminar subcadenas que ya capturaste

Como el toggle no es retroactivo, apagarlo deja subcadenas previas en su lugar. Dos superficies las limpian:

Quieres eliminar	Cómo
Una coincidencia ruidosa	Márcala como falso positivo — `POST /api/guardrail/match/:id/mark-fp` (Admin del espacio de trabajo), o la acción Mark false positive en el feed.
Todas las coincidencias de guardrail de un usuario	Una auto-eliminación de usuario dispara una ventana de gracia de 30 días, luego un borrado de PII que cascada a través de coincidencias de guardrail, logs de solicitud y eventos de firewall. Ver Compliance.

Para afinar una regla charlatana en vez de borrar datos, el flujo de Afinar falsos positivos recorre marcar y refinar coincidencias.

7. Quién puede leer qué

El feed de Matches es datos diagnósticos con alcance de espacio de trabajo. El acceso de lectura está abierto a cada miembro activo; la acción destructiva de falso positivo está restringida más arriba:

Acción	Ruta	Rol
Listar / agrupar / estadísticas / exportar coincidencias	`GET /api/guardrail/match*`	Member
Detalle de una sola coincidencia	`GET /api/guardrail/match/:id`	Member
Marcar / des-marcar falso positivo	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Editar un guardrail (incl. Log raw content)	`PUT /api/guardrail/`	Developer+

Estas rutas de gestión se autentican con tu sesión de consola, no una clave de relay. Las lecturas nunca exponen una subcadena que el toggle no capturó — no hay nada extra que redactar en el momento de la lectura, porque nada extra se almacenó.

8. Un valor por defecto de privacidad práctico

Para la mayoría de los espacios de trabajo la forma correcta es: deja Log raw content apagado, ejecuta tus guardrails sobre metadatos, y activa el toggle temporalmente para una sola política cuando estés depurando activamente por qué una regla se dispara como lo hace. Luego apágalo de nuevo — las nuevas coincidencias dejan de llevar subcadenas inmediatamente.

Esto se empareja naturalmente con un despliegue solo-observar. Empieza con el Compliance Logger (solo-flag), observa el Feed de coincidencias sobre metadatos, y solo recurre al contenido en bruto si una coincidencia específica necesita una mirada más cercana.

9. Dónde ir a continuación

Feed de coincidencias

Navega, agrupa, filtra y exporta cada coincidencia registrada.

Afinar falsos positivos

Marca y refina coincidencias para silenciar una regla ruidosa.

Versionado

Cada cambio de toggle es un cambio versionado y revertible.

Compliance

Retención, borrado de datos del titular e informes firmados.

Para cómo encaja esto en la pila de controles más amplia, ver Guardrails vs firewall y Exfiltración de datos. Para el motor completo — etapas, reglas avanzadas y rutas — lee la referencia de Guardrails.

​1. Registro de privacidad de guardrails: apagado por defecto

Registrado con el toggle APAGADO

Añadido solo cuando está ENCENDIDO

​2. Qué contiene un registro de coincidencia

​3. Un ejemplo concreto

​4. Activarlo (y la garantía no retroactiva)

​5. Qué se captura cuando está encendido

​6. Eliminar subcadenas que ya capturaste

​7. Quién puede leer qué

​8. Un valor por defecto de privacidad práctico

​9. Dónde ir a continuación

Feed de coincidencias

Afinar falsos positivos

Versionado

Compliance

1. Registro de privacidad de guardrails: apagado por defecto

2. Qué contiene un registro de coincidencia

3. Un ejemplo concreto

4. Activarlo (y la garantía no retroactiva)

5. Qué se captura cuando está encendido

6. Eliminar subcadenas que ya capturaste

7. Quién puede leer qué

8. Un valor por defecto de privacidad práctico

9. Dónde ir a continuación