Un guardrail de PII examina el texto de los prompts y respuestas. Para
gobernar las acciones que un agente toma con los datos — herramientas de
fetch, hosts de egress — ver
Exfiltración de datos. Los dos
planos se componen; la mayoría de los equipos ejecutan ambos.
1. Cómo ocurre la exposición
La PII llega a un proveedor upstream a través de tráfico ordinario y bienintencionado:- Un usuario pega sus propios datos de contacto en un chat y tu aplicación reenvía el mensaje completo textualmente.
- Un pipeline de RAG recupera un documento que contiene registros de clientes y lo embute en el prompt como contexto.
- Un agente lee una fila de base de datos e incluye campos en bruto en un argumento de herramienta o un prompt de seguimiento.
- La respuesta del modelo reformula o infiere PII, que tu aplicación luego escribe en sus propios logs.
2. Defiende la fuga de PII en el llm con un guardrail de PII
Un guardrail es una política de contenido nombrada, con alcance de espacio de trabajo. Una reglapii dentro de él
detecta entidades sensibles y aplica una acción a cada coincidencia:
| Acción | Efecto |
|---|---|
mask | Reemplaza cada coincidencia con una etiqueta tipada — jane@acme.com → [EMAIL] — y reenvía el texto limpio. El modelo nunca ve el original. |
block | Rechaza la solicitud completa con HTTP 400 guardrail_blocked. Úsalo cuando la PII nunca debe llegar al proveedor en absoluto. |
flag | No cambia nada del tráfico; registra una coincidencia. Mide la exposición antes de aplicar. |
email, phone, credit_card, ssn, ip, iban, mac_address, jwt,
aws_access_key, api_key_openai, bitcoin_address, más los
identificadores regionales con verificación de checksum jp_mynumber,
kr_rrn y cn_resident_id.
En una acción mask cada coincidencia se renderiza como su etiqueta tipada
— [EMAIL], [SSN], [CREDIT_CARD], etc. — así que la estructura del
prompt sobrevive mientras el valor desaparece.
3. Ejemplo concreto — enmascarar PII en la solicitud
El inicio más rápido es el preset PII Shield: una única reglapii que
enmascara email, phone, ssn, credit_card e ip. Configúralo en la
consola — sin cambios de código, sin clave en este paso.
Crea el guardrail
En la consola, abre Guardrails y haz clic en New guardrail. Elige
el preset PII Shield de la categoría pii, o autora a mano una
regla
pii con acción mask sobre las entidades anteriores. Guarda.
(Las escrituras requieren el rol Developer o superior.)Demuéstralo en el sandbox
Abre la pestaña Test, pega “reply to jane@acme.com”, elige la etapa
input y ejecuta. El sandbox devuelve reply to [EMAIL] — localmente,
sin llamada upstream y sin cuota gastada.Adjúntalo a una clave
En API Keys, edita una clave y selecciona el guardrail del desplegable
Guardrail, o establece el guardrail como el valor por defecto del
espacio de trabajo para que cada clave no adjunta lo herede. La vinculación
vive en la clave dentro del gateway.
4. Enmascara la mayoría, bloquea lo peor — anulaciones por entidad
Una sola regla puede aplicar acciones diferentes a diferentes entidades víaentity_actions. Enmascara identificadores de bajo riesgo pero bloquea con
dureza las entidades que nunca quieres reenviar — una regla en vez de tres
superpuestas:
guardrail_blocked en su
lugar. Una solicitud bloqueada no cuesta cuota — un bloqueo de etapa de
entrada se dispara antes del metering — y se marca como skip-retry. Cada
clave de entity_actions debe ser una entidad declarada en la regla
(integrada o personalizada); su acción se valida contra el conjunto de
acciones de la regla.
5. Qué funciona en streaming hoy
La acción y la etapa interactúan con el streaming de manera diferente — conoce la matriz antes de depender de ella:Mask o block de etapa de entrada (cualquier modo de respuesta)
Mask o block de etapa de entrada (cualquier modo de respuesta)
Totalmente en vivo. El prompt se examina antes de la llamada
upstream, así que el enmascarado y el bloqueo funcionan idénticamente
haya o no streaming de la respuesta. Esta es la superficie que PII Shield
aplica hoy.
Block de etapa de salida
Block de etapa de salida
Aplicado tanto en respuestas con streaming como sin él. En un stream, un
escáner corta el stream en pleno vuelo y emite un mensaje de reemplazo
antes de que cualquier contenido bloqueado llegue al cliente; un bloqueo
de salida reembolsa la cuota pre-consumida.
Mask de etapa de salida
Mask de etapa de salida
Actualmente solo sin streaming. En una respuesta transmitida el chunk
original pasa sin enmascarar — la reescritura de stream en línea es una
mejora planificada. Para enmascarado de respuesta hoy, usa solicitudes sin
streaming, o apóyate en el enmascarado de etapa de entrada. Demuestra tu
combinación exacta de etapa/stream en la pestaña Test primero.
6. Ve qué se capturó
Cada regla que se dispara registra una coincidencia — su tipo, acción, etapa y una cadena de detalle — visible en el feed de Matches del espacio de trabajo (GET /api/guardrail/match, abierto a cualquier miembro). Desde
ahí puedes agrupar, filtrar, exportar a CSV y marcar falsos positivos.
Los valores en bruto no se registran por defecto. El interruptor Log
raw content de un guardrail está apagado — la postura conservadora de
privacidad — así que el feed de Matches registra que una regla de PII se
disparó y qué entidad, pero no la subcadena coincidente (la dirección de
correo en sí). Actívalo por guardrail solo cuando necesites el valor para
triaje; el ajuste no es retroactivo. Capturar PII en tu propio rastro de
auditoría para depurar una fuga de PII sería contraproducente.
7. Llévalo más lejos
Para controles completos de residencia, retención y derecho al olvido — incluyendo instalar un paquete de cumplimiento que materialice estos guardrails para GDPR, HIPAA o PCI DSS — empieza desde las páginas de referencia siguientes.Referencia de Guardrails
Cada tipo de regla, etapa, acción, entidades personalizadas, versionado y
el arnés de eval — la referencia profunda detrás de esta página.
Fuga de secretos
El hermano con forma de credencial — tokens de AWS, OpenAI, GitHub —
capturado por el guardrail Secrets Blocker.
Salida insegura
Examinar lo que el modelo devuelve, no solo lo que recibe.
Guardrails vs Firewall
Cuándo examinar texto y cuándo gobernar acciones — y por qué normalmente
quieres ambos.
