1. Guardrails de entrada para apps de LLM, antes del modelo
Cada regla de guardrail lleva una etapa —input, output o both. Una
regla input se ejecuta contra el texto de la solicitud en el momento en que
llega, de camino al modelo upstream:
Las reglas de entrada examinan la solicitud del llamador. Si también usas
prompts del registro, el mensaje de sistema inyectado se
añade más tarde en el enrutamiento — así que las reglas de entrada ven los
mensajes que tu app envió, no el prompt inyectado. Las reglas de salida
examinan la respuesta en cualquier caso.
2. Qué puedes ejecutar en la etapa de entrada
Cualquier tipo de regla puede ejecutarse eninput. Las razones más comunes
para vetar la solicitud antes del modelo:
Enmascarar PII en el prompt
Una regla
pii con la acción mask reescribe entidades a etiquetas
tipadas (jane@acme.com → [EMAIL]) para que el modelo upstream nunca vea
el valor en bruto. Ver PII Shield.Bloquear secretos antes de que se filtren
Una solicitud que lleva una clave API o credencial de nube es rechazada en
la puerta — pre-medición, sin llamada upstream. Ver
Bloquear secretos.
Detener intentos de inyección
El preset de básicos de inyección de prompts empareja detectores
keyword/regex con una regla
llm_judge para la intención de inyección. Ver
Inyección de prompts.Topar el tamaño del prompt
Una regla
max_chars rechaza un prompt sobredimensionado antes de que
facture tokens. Ver Guardrails de coste.keyword, regex, pii, max_chars,
external, llm_judge, grounding — y las cinco acciones block,
mask, flag, annotate y spotlight aplican todas aquí. (spotlight
envuelve el texto no confiable coincidente en delimitadores para que el modelo
lo trate como datos, no como instrucciones — una defensa de inyección de
prompts en la etapa de entrada; annotate adjunta una nota sin cambiar el
tráfico.) Una excepción que vale la pena conocer:
grounding mide la
respuesta contra las fuentes recuperadas, así que es inherentemente una
verificación de la etapa de salida. Todo lo demás encaja naturalmente en la
etapa de entrada.
3. Un ejemplo concreto
Crea la regla en la consola (bajo tu propia sesión — la configuración de guardrails necesita Developer+), no con una clave de relay. Añade una sola reglainput a un guardrail llamado secrets-shield:
guardrail_id, o márcalo como
valor por defecto del espacio de trabajo — ver
Vincular a una clave), luego llama al
gateway con esa clave de relay sk-orca-...:
guardrail_blocked antes de que el gateway reenvíe nada upstream:
guardrail_blocked
para la forma completa de la respuesta.
4. Por qué un bloqueo de entrada no cuesta cuota
Esta es la ventaja estructural de capturar las cosas a la entrada. Un bloqueo en la etapa de entrada se sitúa antes del preconsumo, así que:| Propiedad | Bloqueo en la etapa de entrada |
|---|---|
| Estado HTTP | 400 guardrail_blocked |
| Cuota cobrada | Ninguna — se dispara antes de la medición |
| Llamada upstream | Nunca se hace |
| Reintento | Marcado skip-retry — reejecutar vuelve a bloquear |
Como la solicitud nunca llega a un canal, un bloqueo de entrada se marca
skip-retry: reejecutar el mismo prompt contra otro canal simplemente
volvería a bloquear y malgastaría esfuerzo. La etapa de salida difiere — un
bloqueo allí reembolsa la cuota que el gateway ya preconsumió. Mismo
400,
contabilidad diferente.5. Resolución y fallback
Una regla de la etapa de entrada solo se ejecuta si un guardrail realmente resuelve en la solicitud. La resolución es explícita:- El
guardrail_idexplícito de la clave, si existe y está habilitado. - De lo contrario el guardrail por defecto del espacio de trabajo.
- De lo contrario ninguno — la solicitud es idéntica byte a byte a un espacio de trabajo sin política.
6. Pruébalo antes de lanzarlo
No vincules una regla de entrada bloqueante al tráfico en vivo por fe. Dos formas de validar primero:Pestaña Test — una muestra
Pestaña Test — una muestra
Abre la pestaña Test en el editor del guardrail, pega una muestra,
elige la etapa
input y ejecuta. El sandbox evalúa la política actual
localmente — sin llamada upstream, sin cuota — y devuelve el veredicto más
(para reglas mask) el texto renderizado. Ver
Pruebas y eval.Marca antes de bloquear
Marca antes de bloquear
Establece la acción a flag primero. Un flag no cambia nada del tráfico
— solo registra una coincidencia — así que puedes medir con qué frecuencia
se dispararía una regla sobre entrada real antes de cambiarla a block.
Ver Afinar falsos positivos.
Ve qué se disparó
Ve qué se disparó
Cada regla que se dispara registra una coincidencia — tipo, acción, etapa y
una cadena de detalle. La subcadena coincidente se registra solo cuando
Log raw content está activado (apagado por defecto). Ver el
Feed de coincidencias y
Registro y privacidad.
7. Dónde ir a continuación
La etapa de entrada detiene que la entrada mala llegue al modelo. Para vetar la respuesta del modelo, empareja con la etapa de salida; para gobernar las llamadas a herramienta de un agente, usa el firewall.- Reglas de la etapa de salida — examina la respuesta del modelo después de que regresa.
- Etapas y
both— cuándo ejecutar una regla en entrada, salida o ambas. - Asegurar agentes de IA — dónde se sitúan los guardrails de entrada en la pila de controles completa.
- Amenaza de inyección de prompts y exfiltración de datos — los ataques que una regla de entrada está construida para detener.
