Saltar al contenido principal
Cualquier prompt que tu aplicación envía a un modelo puede llevar datos personales que no debería — un correo pegado en un ticket de soporte, un SSN en una nota de CRM, un número de tarjeta que un usuario escribió en una caja de chat. Una vez que ese texto llega a un proveedor upstream queda fuera de tu control: registrado, cacheado, quizá usado para entrenamiento. La respuesta del modelo también puede filtrar PII de vuelta, repitiendo o infiriendo detalles que luego aterrizan en los logs de tu aplicación. Esta página muestra cómo detener una fuga de PII en el llm en el gateway con un guardrail de PII — una regla con alcance de espacio de trabajo que enmascara o bloquea entidades sensibles en la solicitud antes de que el modelo las vea. Es el par a nivel de contenido del Agent Firewall, y no necesita ningún cambio en el código de tu aplicación.
Un guardrail de PII examina el texto de los prompts y respuestas. Para gobernar las acciones que un agente toma con los datos — herramientas de fetch, hosts de egress — ver Exfiltración de datos. Los dos planos se componen; la mayoría de los equipos ejecutan ambos.

1. Cómo ocurre la exposición

La PII llega a un proveedor upstream a través de tráfico ordinario y bienintencionado:
  • Un usuario pega sus propios datos de contacto en un chat y tu aplicación reenvía el mensaje completo textualmente.
  • Un pipeline de RAG recupera un documento que contiene registros de clientes y lo embute en el prompt como contexto.
  • Un agente lee una fila de base de datos e incluye campos en bruto en un argumento de herramienta o un prompt de seguimiento.
  • La respuesta del modelo reformula o infiere PII, que tu aplicación luego escribe en sus propios logs.
Nada de esto es un ataque — son la forma normal de las aplicaciones de LLM. La solución es una política que examine cada solicitud y respuesta en un único punto de estrangulamiento, en vez de auditar cada punto de llamada en tu código.

2. Defiende la fuga de PII en el llm con un guardrail de PII

Un guardrail es una política de contenido nombrada, con alcance de espacio de trabajo. Una regla pii dentro de él detecta entidades sensibles y aplica una acción a cada coincidencia:
AcciónEfecto
maskReemplaza cada coincidencia con una etiqueta tipada — jane@acme.com[EMAIL] — y reenvía el texto limpio. El modelo nunca ve el original.
blockRechaza la solicitud completa con HTTP 400 guardrail_blocked. Úsalo cuando la PII nunca debe llegar al proveedor en absoluto.
flagNo cambia nada del tráfico; registra una coincidencia. Mide la exposición antes de aplicar.
El conjunto de detectores es integrado y determinista — coincidencia de patrones pura, sin llamada de red, seguro en la ruta caliente. Entidades integradas: email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, más los identificadores regionales con verificación de checksum jp_mynumber, kr_rrn y cn_resident_id. En una acción mask cada coincidencia se renderiza como su etiqueta tipada — [EMAIL], [SSN], [CREDIT_CARD], etc. — así que la estructura del prompt sobrevive mientras el valor desaparece.
¿Necesitas un detector que no esté integrado (un ID de empleado interno, un número de cuenta)? Añade una entidad personalizada — una regex con checksum de Luhn opcional, hasta 25 por regla — justo al lado de las integradas. Ver la referencia de Guardrails.

3. Ejemplo concreto — enmascarar PII en la solicitud

El inicio más rápido es el preset PII Shield: una única regla pii que enmascara email, phone, ssn, credit_card e ip. Configúralo en la consola — sin cambios de código, sin clave en este paso.
1

Crea el guardrail

En la consola, abre Guardrails y haz clic en New guardrail. Elige el preset PII Shield de la categoría pii, o autora a mano una regla pii con acción mask sobre las entidades anteriores. Guarda. (Las escrituras requieren el rol Developer o superior.)
2

Demuéstralo en el sandbox

Abre la pestaña Test, pega “reply to jane@acme.com, elige la etapa input y ejecuta. El sandbox devuelve reply to [EMAIL] — localmente, sin llamada upstream y sin cuota gastada.
3

Adjúntalo a una clave

En API Keys, edita una clave y selecciona el guardrail del desplegable Guardrail, o establece el guardrail como el valor por defecto del espacio de trabajo para que cada clave no adjunta lo herede. La vinculación vive en la clave dentro del gateway.
4

Llama al gateway como de costumbre

Usando esa clave, tu llamada de relay no cambia:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Draft a reply to jane@acme.com"}
    ]
  }'
El gateway reescribe el correo a [EMAIL] antes de reenviar. El modelo upstream nunca recibe la dirección.
PII Shield es una regla de etapa both, pero el enmascarado en vivo de la etapa de solicitud es lo que se entrega hoy — el gateway enmascara el prompt antes de que salga hacia el modelo. El enmascarado de la etapa de salida (response) en el relay en vivo está en la hoja de ruta. Para verificar cómo se comporta una regla de etapa de salida, evalúala en la pestaña Test. Para streaming, ver §5.

4. Enmascara la mayoría, bloquea lo peor — anulaciones por entidad

Una sola regla puede aplicar acciones diferentes a diferentes entidades vía entity_actions. Enmascara identificadores de bajo riesgo pero bloquea con dureza las entidades que nunca quieres reenviar — una regla en vez de tres superpuestas:
{
  "type": "pii",
  "stage": "input",
  "action": "mask",
  "entities": ["email", "phone", "ip", "credit_card", "ssn"],
  "entity_actions": {
    "credit_card": "block",
    "ssn": "block"
  }
}
Aquí los correos, teléfonos e IPs se enmascaran y pasan; un prompt que lleva un número de tarjeta o SSN se rechaza con HTTP 400 guardrail_blocked en su lugar. Una solicitud bloqueada no cuesta cuota — un bloqueo de etapa de entrada se dispara antes del metering — y se marca como skip-retry. Cada clave de entity_actions debe ser una entidad declarada en la regla (integrada o personalizada); su acción se valida contra el conjunto de acciones de la regla.

5. Qué funciona en streaming hoy

La acción y la etapa interactúan con el streaming de manera diferente — conoce la matriz antes de depender de ella:
Totalmente en vivo. El prompt se examina antes de la llamada upstream, así que el enmascarado y el bloqueo funcionan idénticamente haya o no streaming de la respuesta. Esta es la superficie que PII Shield aplica hoy.
Aplicado tanto en respuestas con streaming como sin él. En un stream, un escáner corta el stream en pleno vuelo y emite un mensaje de reemplazo antes de que cualquier contenido bloqueado llegue al cliente; un bloqueo de salida reembolsa la cuota pre-consumida.
Actualmente solo sin streaming. En una respuesta transmitida el chunk original pasa sin enmascarar — la reescritura de stream en línea es una mejora planificada. Para enmascarado de respuesta hoy, usa solicitudes sin streaming, o apóyate en el enmascarado de etapa de entrada. Demuestra tu combinación exacta de etapa/stream en la pestaña Test primero.

6. Ve qué se capturó

Cada regla que se dispara registra una coincidencia — su tipo, acción, etapa y una cadena de detalle — visible en el feed de Matches del espacio de trabajo (GET /api/guardrail/match, abierto a cualquier miembro). Desde ahí puedes agrupar, filtrar, exportar a CSV y marcar falsos positivos.
Los valores en bruto no se registran por defecto. El interruptor Log raw content de un guardrail está apagado — la postura conservadora de privacidad — así que el feed de Matches registra que una regla de PII se disparó y qué entidad, pero no la subcadena coincidente (la dirección de correo en sí). Actívalo por guardrail solo cuando necesites el valor para triaje; el ajuste no es retroactivo. Capturar PII en tu propio rastro de auditoría para depurar una fuga de PII sería contraproducente.

7. Llévalo más lejos

Para controles completos de residencia, retención y derecho al olvido — incluyendo instalar un paquete de cumplimiento que materialice estos guardrails para GDPR, HIPAA o PCI DSS — empieza desde las páginas de referencia siguientes.

Referencia de Guardrails

Cada tipo de regla, etapa, acción, entidades personalizadas, versionado y el arnés de eval — la referencia profunda detrás de esta página.

Fuga de secretos

El hermano con forma de credencial — tokens de AWS, OpenAI, GitHub — capturado por el guardrail Secrets Blocker.

Salida insegura

Examinar lo que el modelo devuelve, no solo lo que recibe.

Guardrails vs Firewall

Cuándo examinar texto y cuándo gobernar acciones — y por qué normalmente quieres ambos.