Bloquea la fuga de secretos y credenciales

Un prompt que lleva una clave AKIA..., un .env pegado, un agente que repite su propio token sk-... — cualquiera de ellos puede enviar una credencial viva a OpenAI, Anthropic o Google en claro, donde aterriza en sus logs y en los tuyos. Secrets Blocker detiene eso en el gateway: un preset de guardrail de un clic que escanea la solicitud buscando formas de credencial y rechaza la llamada con HTTP 400 antes de que un solo byte salga de tu gateway. Este es un aterrizaje enfocado para el caso de uso de fuga de secretos. Para el motor de guardrails completo — cada tipo de regla, campo y ruta — ver la referencia de Guardrails.

1. Previene flujos de fuga de api key en llm en un preset

Todo el punto de la fontanería de prevenir fuga de api key en llm es capturar la credencial antes de la llamada upstream, no después de que ya esté en el log de solicitud de un proveedor. El preset Secrets Blocker hace exactamente eso. Es un pequeño guardrail de reglas block de la etapa de entrada, cada una un regex para una forma de credencial bien conocida:

Clave de acceso de AWS

AKIA seguido de 16 caracteres alfanuméricos en mayúsculas — la forma canónica del access-key-id de AWS.

Clave secreta estilo OpenAI

Un prefijo sk- seguido de un cuerpo de token largo — la forma usada por OpenAI y varias claves de proveedor parecidas.

Token de acceso personal de GitHub

Un prefijo ghp_ seguido de un cuerpo de 36 caracteres.

Cuando cualquier regla coincide, la solicitud es bloqueada — el gateway nunca la reenvía. La política vive en el gateway, no en tu aplicación, así que tu app sigue llamando a /v1/chat/completions exactamente como antes, sin cambio de SDK y sin redespliegue.

Etapa de entrada, antes de la medición. Secrets Blocker examina lo que envías. Una coincidencia rechaza la llamada antes de que el modelo se invoque, así que la credencial nunca llega al proveedor y una solicitud bloqueada no cuesta cuota. Para capturar también un secreto que un modelo emite de vuelta al cliente, empareja con un preset de bloqueo de salida — ver §5.

2. Aplica el preset en la consola

Cada paso aquí es una acción de consola sobre el gateway alojado bajo tu propia sesión. Crear y editar guardrails requiere Developer+ en el espacio de trabajo. Solo la llamada final /v1/* usa una clave de relay sk-orca-....

Abre la plantilla

En la consola, abre Guardrails, haz clic en el botón dividido New guardrail y elige Secrets & API-Key Blocker de la categoría de plantillas Secrets. Crea las reglas de bloqueo de la etapa de entrada.

Nombra y guarda

Dale un nombre (≤ 64 caracteres), p. ej. secrets-blocker, y guarda. Un preset es una semilla, no un candado — añade o edita reglas libremente después (ver §4).

Pruébalo

Abre la pestaña Test, pega una credencial de muestra en la etapa input y ejecuta la política localmente — sin llamada upstream, sin cuota (ver §3).

Vincula una clave

Edita una clave API y elige secrets-blocker del desplegable Guardrail (establece guardrail_id en la clave), o márcalo como valor por defecto del espacio de trabajo. Ver Vincular a una clave y Valor por defecto de cuenta.

3. Prueba antes de vincular

Prueba que la regla se dispara antes de que cualquier clave la apunte. Abre la pestaña Test dentro del editor, pega una credencial ficticia, elige la etapa input y ejecuta:

Here is my key: AKIAIOSFODNN7EXAMPLE

El sandbox evalúa la política actual localmente — nada se envía upstream, nada se mide — y devuelve el veredicto block nombrando la regla que se disparó. Para una rejilla A/B contra un corpus de muestras de secretos filtrados y benignas, el arnés de Eval vive una pestaña al lado.

4. Extiende la cobertura

Secrets Blocker cubre las tres formas de mayor tráfico. La categoría Secrets viene con presets hermanos que puedes aplicar junto a él, y puedes crear tu propia regla regex para cualquier token que tu stack emita:

Private Keys & Cloud Tokens

Un preset Secrets complementario que bloquea claves privadas PEM, tokens de Slack y Stripe, claves API de Google y JWTs en la solicitud.

Crypto Wallet Block

Bloquea direcciones de monedero estilo BTC y ETH en la solicitud cuando nunca deberían llegar al proveedor.

Para coincidir con un formato de token interno, añade una regla regex — patrones RE2, tiempo lineal, sin backreferences — en la etapa input con acción block. Los patrones malos se rechazan en el momento de guardar, así que un guardrail que puedes guardar siempre compila.

¿En vez de bloquear, quieres redactar un secreto filtrado y dejar pasar la solicitud saneada? Usa una regla pii con una acción mask — el conjunto de detectores integrados incluye aws_access_key, api_key_openai y jwt, cada uno renderizando a una etiqueta tipada como [AWS_ACCESS_KEY]. Ver Acciones para block vs. mask.

5. Captura también secretos en la respuesta

Secrets Blocker examina la solicitud. Un preset Secrets separado, Code Secret in Output, examina la respuesta del modelo buscando claves privadas y tokens estilo AWS/OpenAI y bloquea la llamada si uno se filtra de vuelta. El block de salida se aplica en ambos sentidos: en una respuesta sin streaming la respuesta se examina antes de regresar, y en una respuesta con streaming un escáner corta el stream antes de que cualquier contenido bloqueado llegue al cliente. Un bloqueo en la etapa de salida reembolsa la cuota preconsumida. Ver Reglas de la etapa de salida y Cobertura de streaming.

6. Cómo se ve un bloqueo

Una solicitud bloqueada devuelve HTTP 400 con el código de error guardrail_blocked y un mensaje que nombra el guardrail y la regla que se disparó:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"secrets-blocker\": regex(...)"
  }
}

La solicitud no cuesta cuota — un bloqueo en la etapa de entrada se dispara antes de la medición — y se marca como skip-retry, ya que reejecutar el mismo prompt contra otro canal simplemente volvería a bloquear. Ver el error guardrail_blocked.

7. Ve qué se disparó

Cada regla que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — que aparece en el feed Matches del espacio de trabajo. La propia subcadena coincidente (la credencial) se registra solo cuando Log raw content está activado, que está apagado por defecto.

Para un control de secretos, dejar Log raw content apagado suele ser el punto: capturar la subcadena coincidente reescribiría la credencial filtrada directamente en tu propia telemetría. Mantenlo apagado a menos que tengas una necesidad estrecha de triaje, y rota cualquier credencial que haya sido capturada — una solicitud bloqueada significa que el secreto fue expuesto en un prompt, no que sea seguro. Ver Feed de coincidencias y Registro y privacidad.

8. Dónde ir a continuación

Detectores regex

Crea tus propios patrones de credencial con reglas regex RE2.

Acciones

Elige block, mask, flag, annotate o spotlight por regla — y block, mask, flag o annotate por entidad.

PII Shield

Enmascara emails, SSNs y tarjetas a etiquetas tipadas antes de que el modelo las vea.

Afinar falsos positivos

Marca falsos positivos y ajusta detectores desde el feed de Matches.

Secrets Blocker mantiene las credenciales fuera del contenido que envías. Para detener que un agente filtre un secreto a través de una llamada a herramienta — exfiltrando a un host controlado por un atacante — usa el Firewall y lee la amenaza de exfiltración de datos y la amenaza de fuga de secretos. Para el motor de guardrails completo, ver la referencia de Guardrails.

​1. Previene flujos de fuga de api key en llm en un preset

​2. Aplica el preset en la consola

​3. Prueba antes de vincular

​4. Extiende la cobertura

Private Keys & Cloud Tokens

Crypto Wallet Block

​5. Captura también secretos en la respuesta

​6. Cómo se ve un bloqueo

​7. Ve qué se disparó

​8. Dónde ir a continuación

Detectores regex

Acciones

PII Shield

Afinar falsos positivos

1. Previene flujos de fuga de api key en llm en un preset

2. Aplica el preset en la consola

3. Prueba antes de vincular

4. Extiende la cobertura

5. Captura también secretos en la respuesta

6. Cómo se ve un bloqueo

7. Ve qué se disparó

8. Dónde ir a continuación