Crea tu primer guardrail

La forma más rápida de poner una política de contenido delante de cada llamada de modelo es un guardrail — una política nombrada, con alcance de espacio de trabajo, que guardas una vez en la consola y vinculas a una clave API. El gateway examina entonces la entrada de la solicitud y la salida del modelo en la siguiente llamada, sin redespliegue y sin cambio de SDK. Esta página recorre el ciclo de extremo a extremo: crear un guardrail, añadir una regla, probarlo en el sandbox, vincularlo a una clave y enviar una solicitud real. Para la referencia completa del motor — cada tipo de regla, campo y ruta — ver la referencia de Guardrails.

Cada paso aquí es una acción de consola sobre el gateway alojado (api.orcarouter.ai). La configuración de guardrails se ejecuta bajo tu propia sesión; solo la llamada final /v1/* usa una clave de relay sk-orca-.... Crear y editar guardrails requiere Developer+ en el espacio de trabajo.

1. Cómo añadir guardrails de LLM en cinco pasos

Aquí está todo el ciclo de un vistazo — cada paso se expande abajo.

Crear un guardrail

En la consola, abre Guardrails y haz clic en New guardrail. Dale un nombre (≤ 64 caracteres), p. ej. pii-shield.

Añadir una regla

Añade una regla PII detection en la etapa input con la acción mask.

Probarlo en el sandbox

Abre la pestaña Test, pega una muestra y ejecuta la política localmente — sin llamada upstream, sin cuota.

Vincularlo a una clave

Edita una clave API y elige el guardrail del desplegable Guardrail. La vinculación vive en la clave.

Enviar una solicitud

Llama a /v1/chat/completions con esa clave. El gateway aplica la política antes de reenviar.

2. Crea el guardrail

En la consola, abre Guardrails y haz clic en New guardrail. Un guardrail es una política de contenido nombrada, con alcance de espacio de trabajo — una lista ordenada de reglas que el gateway ejecuta contra la entrada de la solicitud y la salida del modelo. Nómbralo pii-shield y guarda.

El botón dividido New guardrail también abre directamente en una plantilla. El preset PII Shield es una sola regla pii que enmascara email, phone, ssn, credit_card e ip. Aplicar un preset es una semilla, no un candado — edítalo libremente después. Explora las plantillas de presets para más puntos de partida.

3. Añade una regla

Cada regla decide tres cosas — qué buscar (un tipo de regla), dónde buscar (una etapa) y qué hacer (una acción). Añade una regla:

Tipo: PII detection (pii)
Etapa: Input (la solicitud)
Acción: Mask — redactar la coincidencia
Entidades: email, phone, ssn

En una acción mask, cada coincidencia se reemplaza con una etiqueta tipada — un email se convierte en [EMAIL], un SSN se convierte en [SSN]. Los siete tipos de regla (keyword, regex, pii, max_chars, external, llm_judge, grounding) y las cinco acciones (block, mask, flag, annotate, spotlight) se cubren en la referencia. Para este primer guardrail, una regla de enmascarado es suficiente.

El enmascarado está activo en ambas etapas. Las reglas de la etapa de entrada enmascaran la solicitud antes de que el modelo la vea; las reglas de la etapa de salida enmascaran la respuesta del modelo — en respuestas sin streaming y chunk a chunk en las de streaming — antes de que el cliente la reciba. Block se aplica también en ambas etapas. Si quieres vetar las respuestas del modelo, establece la etapa de la regla en output (o both); ver Reglas de la etapa de salida.

4. Pruébalo en el sandbox

Antes de vincular el guardrail a cualquier clave, prueba que hace lo que esperas. Abre la pestaña Test dentro del editor, pega una muestra, elige la etapa input y ejecuta:

Reply to jane@acme.com please

El sandbox evalúa la política actual localmente y devuelve el veredicto más el texto renderizado:

Reply to [EMAIL] please

Nada se envía upstream y nada se mide. Para una rejilla A/B contra un corpus de entradas, el arnés de Eval vive una pestaña al lado.

5. Vincúlalo a una clave

Un guardrail no hace nada hasta que una clave lo apunta. Dos formas de vincular:

Por clave

Edita una clave API y elige el guardrail del desplegable Guardrail. Esto establece guardrail_id en la clave. Ver Vincular a una clave.

Valor por defecto del espacio de trabajo

Marca el guardrail como el valor por defecto del espacio de trabajo para que cualquier clave sin vinculación explícita lo herede. Ver Valor por defecto de cuenta.

La resolución es explícita y predecible:

Orden	Qué aplica
1	El `guardrail_id` explícito de la clave (si existe y está habilitado).
2	El valor por defecto del espacio de trabajo (si la clave no tiene vinculación).
3	Ninguno — la solicitud es idéntica byte a byte a un espacio de trabajo sin política.

Una vinculación explícita nunca hace fallback silencioso. Deshabilitar un guardrail vinculado es el interruptor de apagado — no cae al valor por defecto del espacio de trabajo. (Las políticas de firewall difieren aquí; ver Guardrails vs. firewall.)

6. Envía una solicitud

Usando una clave vinculada a pii-shield, llama a OrcaRouter exactamente como antes — sin cambio de SDK, sin nuevas cabeceras:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

El gateway enmascara el email a [EMAIL] antes de reenviar — el modelo upstream nunca ve la dirección. Cambia la acción de la regla a block y la siguiente solicitud que contenga la entidad es rechazada con HTTP 400 guardrail_blocked. Una solicitud bloqueada no cuesta cuota (un bloqueo de entrada se dispara antes de la medición; un bloqueo de salida reembolsa la cuota preconsumida) y se marca como skip-retry. Ver el error guardrail_blocked para la forma completa de la respuesta.

7. Dónde ir a continuación

Ve qué se disparó

Cada regla que se dispara registra una coincidencia — tipo, acción, etapa y una cadena de detalle. La subcadena coincidente se registra solo cuando Log raw content está activado (apagado por defecto). Ver el Feed de coincidencias y Registro y privacidad.

Enmascara más que lo básico

PII detection cubre email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (más entidades regionales), y puedes crear las tuyas propias. Ver PII Shield, Entidades PII personalizadas y Formatos de enmascarado.

Captura secretos e inyección

Añade un Bloqueador de secretos o el preset Básicos de inyección de prompts — este último marca frases comunes de jailbreak para revisión. Para capturar la intención de inyección de forma semántica en vez de por frase, añade una regla llm_judge junto a él.

Revierte un cambio

Cada edición escribe una fila de historial de versiones. Abre History para hacer diff y revertir. Ver Versionado.

Veta llamadas a herramienta, no solo texto

Los guardrails examinan contenido. Para gobernar las llamadas a herramienta de un agente — denegar acciones destructivas, topar coste, requerir aprobación — usa el Firewall. Empieza con Asegurar agentes de IA y la amenaza de llamadas a herramienta peligrosas.

Lee la referencia de Guardrails para el motor completo — campos de regla, proveedores externos, el arnés de eval y la API completa — o el inicio rápido de seguridad para conectar guardrails y firewall juntos para una línea base de agente.

​1. Cómo añadir guardrails de LLM en cinco pasos

​2. Crea el guardrail

​3. Añade una regla

​4. Pruébalo en el sandbox

​5. Vincúlalo a una clave

Por clave

Valor por defecto del espacio de trabajo

​6. Envía una solicitud

​7. Dónde ir a continuación

1. Cómo añadir guardrails de LLM en cinco pasos

2. Crea el guardrail

3. Añade una regla

4. Pruébalo en el sandbox

5. Vincúlalo a una clave

6. Envía una solicitud

7. Dónde ir a continuación