.env en un prompt para “ayudar a depurar”. Un documento recuperado lleva
una clave API incrustada. Un modelo, al que se le pide “muestra la config”,
devuelve una clave de acceso de AWS directamente al cliente. Un agente
construye una llamada a herramienta con un token vivo horneado en los
argumentos. Cada una de estas es una ruta para que una credencial escape —
hacia los logs de un proveedor upstream, hacia una transcripción de cliente,
o hacia una herramienta de terceros.
Esta página cubre cómo los Guardrails y el
Agent Firewall de OrcaRouter te permiten defenderte
de la fuga de secretos en el llm — sin cambiar el código de tu
aplicación.
La detección ocurre en el gateway, delante de cada clave vinculada — así que
una única política cubre cada proveedor, cada modelo y cada agente sin un
cambio de SDK.
1. Dónde se filtran los secretos
Una credencial puede escapar en tres puntos distintos de una solicitud:En el prompt (input)
En el prompt (input)
La credencial está en la solicitud antes de que el modelo se ejecute —
una clave pegada, un fragmento
.env, un token dentro de un chunk de RAG
recuperado. Sin verificar, llega al proveedor upstream y puede aterrizar
en sus logs. Detenla con el guardrail de entrada Secrets Blocker
(§2).En la respuesta (output)
En la respuesta (output)
El modelo emite un secreto de vuelta a tu cliente — regurgita una clave de
su contexto, o alucina una cadena con forma de credencial. Captúralo con
una regla de secretos de salida
(§3).
En un argumento de llamada a herramienta
En un argumento de llamada a herramienta
Tu agente construye una llamada a herramienta con un token en los
argumentos. El veredicto sanitize del Firewall redacta las subcadenas
coincidentes de los argumentos antes de que la llamada se despache
(§4).
2. Secrets Blocker — detén credenciales en el prompt
El Secrets Blocker es un preset de guardrail bajo la categoría secrets que se ejecuta en la etapa input. Escanea la solicitud en busca de formas de credencial — claves de acceso de AWS, claves estilo OpenAI y tokens de GitHub — y bloquea la llamada antes de que salga del gateway. La credencial nunca llega a un modelo. Autóralo una vez en la consola, adjunta una clave, y cada solicitud a través de esa clave es examinada:Crea el guardrail
En la consola, abre
/console/guardrails, haz clic en New guardrail y
aplica el preset Secrets & API-Key Blocker de la categoría
secrets. Siembra un guardrail con reglas de bloqueo de etapa de
entrada para las formas de credencial comunes — edita libremente desde
ahí.Adjunta una clave
Abre
/console/token, edita una clave API y elige el guardrail del
desplegable Guardrail — o establécelo como el valor por defecto del
espacio de trabajo para que cada clave no adjunta lo herede.[JWT] /
[AWS_ACCESS_KEY]), una regla pii que cubra jwt, aws_access_key y
api_key_openai es la alternativa basada en entidades; ver la
referencia de Guardrails.
3. Bloquea secretos en la salida del modelo
Un secreto también puede salir en la respuesta — el modelo devuelve una clave de su contexto o emite una cadena con forma de credencial. Añade una regla en la etapa output para examinar la respuesta del modelo antes de que regrese al cliente. La categoría secrets entrega un preset Code Secret in Output para exactamente esto: reglas de bloqueo de etapa de salida para claves privadas PEM, claves de acceso de AWS y tokens secretos estilo OpenAI.El enmascarado de salida (reemplazar una coincidencia con una etiqueta
tipada en vez de rechazar la respuesta completa) actualmente aplica solo a
respuestas sin streaming. Para credenciales en la salida, la acción block
es la elección fiable en tráfico con streaming. Demuestra tu combinación de
etapa/stream en la pestaña Test del guardrail antes de depender de ella.
4. Sanea secretos de los argumentos de llamadas a herramienta
Cuando tu agente construye una llamada a herramienta, una credencial puede viajar en los argumentos. El veredicto sanitize del Firewall redacta las subcadenas coincidentes de los argumentos de la llamada a herramienta y reenvía la llamada limpia — en las superficiesresponse y mcp, donde hay
argumentos en tiempo de llamada que reescribir.
Una regla sanitize nombra qué detectores redactar en su configuración
sanitize_json — un conjunto de presets integrados más regexes
custom opcionales. El material coincidente se reemplaza con
[redacted:<preset>] (las coincidencias custom con [redacted:custom]):
aws_access_key, aws_secret_key, openai_key, anthropic_key y
bearer_token (más email, ssn_us y credit_card para PII). Una regla
sanitize debe nombrar al menos un preset o patrón custom — un saneador vacío
se rechaza al guardar.
El guardrail Secrets Blocker (§2)
sigue siendo tu defensa primaria para credenciales en el cuerpo de la
solicitud — el saneador del firewall es el complemento a nivel de acción para
secretos que aparecen específicamente dentro de los argumentos de llamadas a
herramienta.
5. Apilar las tres defensas
| Dónde está el secreto | Capa que lo detiene | Acción |
|---|---|---|
| En el prompt | Secrets Blocker (guardrail de entrada) | block |
| En la respuesta del modelo | Regla de secretos de salida (guardrail de salida) | block |
| En un argumento de llamada a herramienta | Saneador del Firewall | sanitize |
6. Observa qué se disparó
Cada regla de guardrail que se dispara registra una coincidencia — tipo de regla, acción, etapa y una cadena de detalle — al feed de Matches del espacio de trabajo (GET /api/guardrail/match, Member). La subcadena
coincidente se registra solo cuando “Log raw content” está activado, que
está apagado por defecto — la postura conservadora de privacidad, para
que el feed de Matches no se convierta él mismo en un lugar donde se acumulen
secretos. Déjalo apagado para reglas de credenciales a menos que
específicamente necesites la subcadena para triaje.
Las decisiones de sanitize del firewall aterrizan en el feed de Events del
Firewall (GET /api/workspace/firewall/events, Developer+), con secretos y
blobs de reglas nunca registrados.
7. Adónde ir a continuación
Referencia de Guardrails
Tipos de regla, entidades de PII, presets, el sandbox de test y el arnés
de eval por completo.
Referencia de reglas del Firewall
El lenguaje de coincidencia — globs de herramienta, cláusulas de
argumentos y saneadores.
Exposición de PII
La amenaza de contenido hermana: datos personales en prompts y respuestas.
Exfiltración de datos
Cuando una credencial filtrada se convierte en la carga útil de una
llamada de exfiltración saliente.
Guardrails vs Firewall
Qué plano detiene qué clase de fuga, y cómo se componen.
Línea base de agentes seguros
La postura de inicio que activa estas defensas juntas.
