1. Le cas d’usage du guardrail de coût llm
Le levier est un seul type de règle intégré :max_chars. Il plafonne le
nombre de caractères du texte à une étape. Aucun appel de modèle, aucun saut
réseau — une vérification de longueur déterministe qui s’exécute sur la requête
avant la mesure, ou sur la réponse après le retour du modèle.
Deux formes, choisies par l’action de la règle :
Bloquer les requêtes surdimensionnées
Sur une règle
max_chars de requête avec l’action block, tout prompt
au-dessus de la limite est rejeté avec une HTTP 400 guardrail_blocked — et
une requête bloquée ne coûte aucun quota, parce que le block se déclenche
avant que l’usage ne soit mesuré.Borner les réponses surdimensionnées
Sur une règle
max_chars avec l’action mask, le texte est tronqué à la
limite au lieu d’être rejeté — l’appelant obtient toujours une réponse
utilisable, juste bornée. Utile à l’étape réponse pour plafonner l’egress.Le plafond compte les caractères (conscient des runes —
日本語 en compte
trois, pas neuf), pas les tokens. Le preset orienté tokens livré traduit un
budget de tokens en un plafond de caractères au ratio char→token standard ;
resserrez directement le champ max_chars de la règle pour un budget plus
strict.2. Les presets cost livrés
Ouvrez le split-button New guardrail dans la console et choisissez dans la catégorie de templates cost. Trois presets sèment chacun une seule règlemax_chars :
| Preset | Étape · action | Plafond |
|---|---|---|
| Prompt-Size Cap | input · block | 50 000 caractères |
| Token Cost Cap (prompt) | input · block | 200 000 caractères (~50K tokens) |
| Response Size Cap | output · block | 32 000 caractères |
max_chars, l’étape ou l’action pour correspondre à votre budget.
Rédiger et modifier des guardrails nécessite Developer+ dans l’espace de
travail.
3. Rédiger votre propre plafond
Une règle de coût est la règle la plus simple du moteur — une étape, une action et un entier. Pour plafonner les requêtes à 20 000 caractères et rejeter tout ce qui est plus grand :max_chars doit être un
entier positif ; le validateur rejette 0 ou les valeurs négatives.
4. Tester avant d’attacher
Prouvez que le plafond se déclenche là où vous l’attendez avant qu’une clé ne pointe vers lui. Ouvrez l’onglet Test à l’intérieur de l’éditeur de guardrail, collez un échantillon, choisissez l’étapeinput, et exécutez la
politique actuelle localement — aucun appel en amont, aucun quota. Un
échantillon au-dessus de la limite renvoie un verdict bloqué ; un échantillon en
dessous de la limite passe intact.
Pour une règle de bornage, le sandbox affiche le texte rendu tronqué, afin que
vous puissiez confirmer que le plafond atterrit sur une limite de rune avant de
vous y fier.
5. Attacher le plafond à une clé
Un guardrail de coût se résout exactement comme n’importe quel autre — attachez-le à une clé API, ou définissez-le comme défaut de l’espace de travail. Chaque étape ici est une action de console sous votre propre session.Enregistrer le guardrail
Créez ou ouvrez un guardrail dans la console, ajoutez une règle
max_chars
(ou appliquez un preset cost), et enregistrez.Attacher une clé
Modifiez une clé API et choisissez le guardrail dans la liste déroulante
Guardrail (définit
guardrail_id sur la clé), ou marquez le guardrail
comme défaut de l’espace de travail. Voir
Attacher à une clé et
Défaut de compte.6. Ce que coûte une requête bloquée
Un plafond à l’étape requête est le guardrail le moins coûteux à appliquer : il s’exécute avant que l’usage ne soit mesuré, donc un prompt surdimensionné est rejeté à coût de quota nul.Une requête surdimensionnée bloquée coûte-t-elle du quota ?
Une requête surdimensionnée bloquée coûte-t-elle du quota ?
Non. Un block à l’étape input se déclenche avant la mesure. Un block à
l’étape output rembourse le quota pré-consommé après le rejet de la réponse.
Dans les deux cas, l’appelant ne paie aucun quota, obtient une HTTP 400
guardrail_blocked, et la requête est marquée skip-retry — ré-exécuter
le même prompt surdimensionné ne ferait que bloquer à nouveau. Voir l’erreur
guardrail_blocked.Le plafond de réponse est-il appliqué en streaming ?
Le plafond de réponse est-il appliqué en streaming ?
Un block
max_chars à l’étape output est appliqué dans les deux cas :
sur une réponse non-streaming, la réponse est filtrée avant son retour, et
sur une réponse streaming, un scanner coupe le flux en plein vol une fois que
le buffer franchit le plafond. Un mask (bornage) sur la sortie s’applique
actuellement aux réponses non-streaming uniquement. Voir
Couverture du streaming.Une règle de coût montre-t-elle le texte correspondant dans le flux ?
Une règle de coût montre-t-elle le texte correspondant dans le flux ?
Non. Une règle
max_chars n’a pas de concept de sous-chaîne, donc le
flux des correspondances enregistre
que le plafond s’est déclenché — son type, son action et son étape — mais
jamais une sous-chaîne correspondante, même avec Log raw content activé.
Vous obtenez le signal qu’il s’est déclenché sans re-capturer le payload
surdimensionné.7. Où cela s’inscrit
Un plafondmax_chars est un levier de coût brut — un plafond dur, pas un
budget de dépense par clé. Pour plafonner les dollars plutôt que les
caractères, définissez credit_limit_usd sur la clé API elle-même (0 =
illimité), que la passerelle applique indépendamment de tout guardrail. Les deux
s’empilent : le budget de clé borne la dépense totale, le guardrail de coût
borne la taille de toute requête ou réponse individuelle.
8. Où aller ensuite
Règles à l'étape input
Comment le filtrage de requête s’exécute avant l’appel en amont et avant la
mesure.
Règles à l'étape output
Filtrer et borner la réponse du modèle, en streaming et non.
L'erreur guardrail_blocked
La forme de la HTTP 400, la garantie de quota nul, et skip-retry.
Test & éval
Prouvez un plafond contre un corpus avant d’attacher une clé.
