1. Guardrails d’entrée pour applications LLM, avant le modèle
Chaque règle de guardrail porte une étape —input, output, ou both.
Une règle input s’exécute contre le texte de la requête au moment où elle
arrive, en route vers le modèle en amont :
Les règles d’entrée filtrent la requête de l’appelant. Si vous utilisez
aussi les prompts du registre, le message système
injecté est ajouté plus tard dans le routage — donc les règles d’entrée voient
les messages que votre application a envoyés, pas le prompt injecté. Les règles
de sortie filtrent la réponse dans tous les cas.
2. Ce que vous pouvez exécuter à l’étape input
N’importe quel type de règle peut s’exécuter àinput. Les raisons les plus
courantes de contrôler la requête avant le modèle :
Masquer la PII dans le prompt
Une règle
pii avec l’action mask réécrit les entités en balises typées
(jane@acme.com → [EMAIL]) afin que le modèle en amont ne voie jamais la
valeur brute. Voir PII Shield.Bloquer les secrets avant qu'ils ne fuient
Une requête transportant une clé API ou un credential cloud est rejetée à
la porte — pré-mesure, aucun appel en amont. Voir
Bloquer les secrets.
Arrêter les tentatives d'injection
Le preset Bases de l’injection de prompt associe des détecteurs
keyword/regex à une règle
llm_judge pour l’intention d’injection. Voir
Injection de prompt.Plafonner la taille du prompt
Une règle
max_chars rejette un prompt surdimensionné avant qu’il ne
facture aucun token. Voir Cost guardrails.keyword, regex, pii, max_chars,
external, llm_judge, grounding — et les cinq actions block, mask,
flag, annotate et spotlight s’appliquent tous ici. (spotlight encadre
le texte non fiable correspondant dans des délimiteurs afin que le modèle le
traite comme des données, pas des instructions — une défense d’injection de
prompt à l’étape input ; annotate attache une note sans changer le trafic.)
Une exception à connaître :
grounding mesure la
réponse par rapport aux sources récupérées, donc c’est par nature une
vérification à l’étape output. Tout le reste convient naturellement à l’étape
input.
3. Un exemple concret
Rédigez la règle dans la console (sous votre propre session — la config des guardrails nécessite Developer+), pas avec une clé de relais. Ajoutez une seule règleinput à un guardrail nommé secrets-shield :
guardrail_id, ou marquez-le
comme défaut de l’espace de travail — voir
Attacher à une clé), puis appelez la
passerelle avec cette clé de relais sk-orca-... :
guardrail_blocked avant que la passerelle ne transmette quoi que ce soit en
amont :
guardrail_blocked
pour la forme complète de la réponse.
4. Pourquoi un block d’entrée ne coûte aucun quota
C’est l’avantage structurel d’attraper les choses à l’entrée. Un block à l’étape input se situe avant la pré-consommation, donc :| Propriété | Block à l’étape input |
|---|---|
| Statut HTTP | 400 guardrail_blocked |
| Quota facturé | Aucun — se déclenche avant la mesure |
| Appel en amont | Jamais effectué |
| Retry | Marqué skip-retry — ré-exécuter bloque à nouveau |
Parce que la requête n’atteint jamais un canal, un block d’entrée est marqué
skip-retry : ré-exécuter le même prompt contre un autre canal ne ferait
que bloquer à nouveau et gaspiller des efforts. L’étape output diffère — un
block là-bas rembourse le quota que la passerelle a déjà pré-consommé. Même
400, comptabilité différente.5. Résolution et fallback
Une règle à l’étape input ne s’exécute que si un guardrail se résout réellement sur la requête. La résolution est explicite :- Le
guardrail_idexplicite de la clé, s’il existe et est activé. - Sinon le guardrail par défaut de l’espace de travail.
- Sinon aucun — la requête est identique octet pour octet à un espace de travail sans politique.
6. Prouvez-le avant de livrer
N’attachez pas une règle d’entrée bloquante au trafic réel par confiance. Deux façons de valider d’abord :Onglet Test — un échantillon
Onglet Test — un échantillon
Ouvrez l’onglet Test dans l’éditeur de guardrail, collez un
échantillon, choisissez l’étape
input, et lancez. Le sandbox évalue la
politique actuelle localement — aucun appel en amont, aucun quota — et
renvoie le verdict plus (pour les règles mask) le texte rendu. Voir
Test & éval.Signaler avant de bloquer
Signaler avant de bloquer
Mettez l’action sur flag d’abord. Un flag ne change rien au trafic — il
enregistre seulement une correspondance — afin que vous puissiez mesurer à
quelle fréquence une règle se déclencherait sur de vraies entrées avant de
la basculer sur block. Voir
Ajuster les faux positifs.
Voir ce qui s'est déclenché
Voir ce qui s'est déclenché
Chaque règle qui se déclenche enregistre une correspondance — type, action,
étape et une chaîne de détail. La sous-chaîne correspondante n’est
enregistrée que lorsque Log raw content est activé (désactivé par
défaut). Voir le
flux des correspondances et
Journalisation & confidentialité.
7. Où aller ensuite
L’étape input empêche les mauvaises entrées d’atteindre le modèle. Pour contrôler la réponse du modèle, associez-la à l’étape output ; pour gouverner les appels d’outils d’un agent, utilisez le firewall.- Règles à l’étape output — filtrez la réponse du modèle après son retour.
- Étapes et
both— quand exécuter une règle sur input, output, ou les deux. - Sécuriser les agents IA — où les guardrails d’entrée s’inscrivent dans la pile de contrôle complète.
- Menace d’injection de prompt et exfiltration de données — les attaques qu’une règle d’entrée est conçue pour arrêter.
