1. Guardrails di input per app LLM, prima del modello
Ogni regola di guardrail porta uno stage —input, output o both.
Una regola input gira sul testo della richiesta nel momento in cui arriva, in
viaggio verso il modello upstream:
Le regole di input filtrano la richiesta del chiamante. Se usi anche i
prompt del registry, il messaggio di sistema iniettato
viene aggiunto più tardi nel routing — quindi le regole di input vedono i
messaggi inviati dalla tua app, non il prompt iniettato. Le regole di output
filtrano la risposta in entrambi i casi.
2. Cosa puoi eseguire nello stage di input
Qualsiasi tipo di regola può girare ininput. I motivi più comuni per gestire
la richiesta prima del modello:
Maschera la PII nel prompt
Una regola
pii con l’azione mask riscrive le entità in tag tipizzati
(jane@acme.com → [EMAIL]) così che il modello upstream non veda mai il
valore grezzo. Vedi PII Shield.Blocca i segreti prima che trapelino
Una richiesta che porta una chiave API o una credenziale cloud viene
rifiutata alla porta — pre-misurazione, nessuna chiamata upstream. Vedi
Block secrets.
Ferma i tentativi di injection
Il preset basi di prompt-injection abbina detector keyword/regex a una
regola
llm_judge per l’intento di injection. Vedi
Prompt injection.Limita la dimensione del prompt
Una regola
max_chars rifiuta un prompt sovradimensionato prima che fatturi
qualsiasi token. Vedi Cost guardrails.keyword, regex, pii, max_chars,
external, llm_judge, grounding — e le cinque azioni block,
mask, flag, annotate e spotlight si applicano tutti qui. (spotlight
avvolge il testo non attendibile corrispondente in delimitatori così che il
modello lo tratti come dati, non come istruzioni — una difesa di prompt-injection
nello stage di input; annotate allega una nota senza cambiare il traffico.)
Un’eccezione che vale la pena conoscere:
grounding misura la
risposta rispetto alle sorgenti recuperate, quindi è intrinsecamente un
controllo dello stage di output. Tutto il resto si adatta naturalmente allo stage
di input.
3. Un esempio concreto
Scrivi la regola nella console (sotto la tua sessione — la config dei guardrail richiede Developer+), non con una chiave di relay. Aggiungi una singola regolainput a un guardrail chiamato secrets-shield:
guardrail_id, o marcalo come default
del workspace — vedi Collega a una chiave),
poi chiama il gateway con quella chiave di relay sk-orca-...:
guardrail_blocked prima che il gateway inoltri qualsiasi cosa upstream:
guardrail_blocked
per la forma completa della risposta.
4. Perché un block di input non costa quota
Questo è il vantaggio strutturale di catturare le cose in entrata. Un block nello stage di input sta prima del pre-consume, quindi:| Proprietà | Block nello stage di input |
|---|---|
| Stato HTTP | 400 guardrail_blocked |
| Quota addebitata | Nessuna — scatta prima della misurazione |
| Chiamata upstream | Mai effettuata |
| Retry | Marcato skip-retry — rieseguire blocca di nuovo |
Poiché la richiesta non raggiunge mai un canale, un block di input è marcato
skip-retry: rieseguire lo stesso prompt contro un altro canale si limiterebbe
a bloccarlo di nuovo e sprecherebbe lavoro. Lo stage di output differisce — un
block lì rimborsa la quota che il gateway aveva già pre-consumato. Stesso
400, contabilità diversa.5. Risoluzione e fallback
Una regola dello stage di input gira solo se un guardrail si risolve davvero sulla richiesta. La risoluzione è esplicita:- Il
guardrail_idesplicito della chiave, se esiste ed è abilitato. - Altrimenti il guardrail default del workspace.
- Altrimenti nessuno — la richiesta è byte-identica a un workspace senza policy.
6. Dimostralo prima di metterlo in produzione
Non collegare una regola di input bloccante al traffico reale per fede. Due modi per validare prima:Tab Test — un campione
Tab Test — un campione
Apri la tab Test nell’editor del guardrail, incolla un campione, scegli
lo stage
input ed esegui. La sandbox valuta la policy corrente
localmente — nessuna chiamata upstream, nessuna quota — e restituisce il
verdetto più (per le regole mask) il testo renderizzato. Vedi
Testing ed eval.Segnala prima di bloccare
Segnala prima di bloccare
Imposta prima l’azione su flag. Un flag non cambia nulla del traffico —
registra solo un match — così puoi misurare quanto spesso una regola
scatterebbe su input reale prima di portarla su block. Vedi
Tuning dei falsi positivi.
Vedi cosa è scattato
Vedi cosa è scattato
Ogni regola che scatta registra un match — type, action, stage e una stringa
di detail. La sottostringa corrispondente viene registrata solo quando Log
raw content è attivo (disattivato per default). Vedi il
Feed dei match e
Logging e privacy.
7. Dove andare dopo
Lo stage di input ferma l’input cattivo dal raggiungere il modello. Per gestire la risposta del modello, abbinalo allo stage di output; per governare le chiamate a tool di un agent, usa il firewall.- Regole dello stage di output — filtra la risposta del modello dopo che torna.
- Stage e
both— quando eseguire una regola su input, output o entrambi. - Proteggere gli agent AI — dove i guardrails di input si collocano nel control stack completo.
- Minaccia di prompt-injection ed esfiltrazione di dati — gli attacchi che una regola di input è costruita per fermare.
