1. Przypadek guardrail kosztów llm
Dźwignią jest jeden wbudowany typ reguły:max_chars. Ogranicza liczbę
znaków tekstu na etapie. Bez wywołania modelu, bez skoku sieciowego —
deterministyczne sprawdzenie długości, które biegnie na żądaniu przed pomiarem
lub na odpowiedzi po powrocie modelu.
Dwa kształty, wybierane przez akcję reguły:
Blokuj zbyt duże żądania
Na regule
max_chars żądania z akcją block dowolny prompt powyżej
limitu jest odrzucany z HTTP 400 guardrail_blocked — a zablokowane
żądanie nie kosztuje kwoty, bo blokada działa, zanim użycie jest
mierzone.Przytnij zbyt duże odpowiedzi
Na regule
max_chars z akcją mask tekst jest obcinany do limitu
zamiast odrzucany — wywołujący nadal dostaje użyteczną odpowiedź, tylko
ograniczoną. Przydatne na etapie odpowiedzi, by ograniczyć egress.Limit liczy znaki (świadome run —
日本語 to trzy, nie dziewięć), nie
tokeny. Dostarczany preset zorientowany na tokeny przekłada budżet tokenów na
sufit znaków przy standardowym współczynniku char→token; zacieśnij pole
max_chars reguły bezpośrednio dla surowszego budżetu.2. Dostarczane presety kosztów
Otwórz przycisk z podziałem New guardrail w konsoli i wybierz z kategorii szablonów cost. Trzy presety zasiewają po jednej regulemax_chars:
| Preset | Etap · akcja | Limit |
|---|---|---|
| Prompt-Size Cap | input · block | 50 000 znaków |
| Token Cost Cap (prompt) | input · block | 200 000 znaków (~50K tokenów) |
| Response Size Cap | output · block | 32 000 znaków |
max_chars, etap lub akcję, by pasowała do twojego budżetu. Autorowanie i
edycja guardrails wymaga Developer+ w przestrzeni roboczej.
3. Autorzuj własny limit
Reguła kosztów to najprostsza reguła w silniku — etap, akcja i liczba całkowita. Aby ograniczyć żądania do 20 000 znaków i odrzucać wszystko większe:max_chars musi być dodatnią
liczbą całkowitą; walidator odrzuca 0 lub wartości ujemne.
4. Przetestuj, zanim powiążesz
Udowodnij, że limit działa tam, gdzie oczekujesz, zanim jakikolwiek klucz na niego wskaże. Otwórz zakładkę Test wewnątrz edytora guardrail, wklej próbkę, wybierz etapinput i uruchom bieżącą politykę lokalnie — bez
wywołania w górę, bez kwoty. Próbka powyżej limitu zwraca werdykt block;
próbka poniżej limitu przechodzi nietknięta.
Dla reguły przycinającej piaskownica pokazuje obcięty wyrenderowany tekst,
więc możesz potwierdzić, że limit ląduje na granicy run, zanim na nim
polegniesz.
5. Powiąż limit z kluczem
Guardrail kosztów rozwiązuje się dokładnie jak każdy inny — powiąż go z kluczem API lub ustaw jako domyślny przestrzeni roboczej. Każdy krok tutaj to akcja konsoli pod twoją własną sesją.Zapisz guardrail
Utwórz lub otwórz guardrail w konsoli, dodaj regułę
max_chars (lub
zastosuj preset kosztów) i zapisz.Powiąż klucz
Edytuj klucz API i wybierz guardrail z rozwijanej listy Guardrail
(ustawia
guardrail_id na kluczu) lub oznacz guardrail jako domyślny
przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.6. Co kosztuje zablokowane żądanie
Limit na etapie żądania to najtańszy guardrail do egzekwowania: biegnie przed zmierzeniem użycia, więc zbyt duży prompt jest odrzucany przy zerowym koszcie kwoty.Czy zablokowane zbyt duże żądanie kosztuje kwotę?
Czy zablokowane zbyt duże żądanie kosztuje kwotę?
Nie. Blokada na etapie wejścia działa przed pomiarem. Blokada na etapie
wyjścia zwraca wstępnie pobraną kwotę po odrzuceniu odpowiedzi. Tak czy
inaczej wywołujący nie płaci kwoty, dostaje HTTP 400
guardrail_blocked, a
żądanie jest oznaczone jako skip-retry — ponowne uruchomienie tego
samego zbyt dużego promptu po prostu znów by zablokowało. Zobacz
błąd guardrail_blocked.Czy limit odpowiedzi jest egzekwowany na streamingu?
Czy limit odpowiedzi jest egzekwowany na streamingu?
Blokada block
max_chars na etapie wyjścia jest egzekwowana w obie
strony: na odpowiedzi nie-streamingowej odpowiedź jest sprawdzana, zanim
wróci, a na odpowiedzi streamingowej skaner przecina strumień w locie, gdy
bufor przekroczy limit. Mask (przycięcie) na wyjściu obecnie stosuje
się wyłącznie do odpowiedzi nie-streamingowych. Zobacz
Pokrycie streamingu.Czy reguła kosztów pokazuje dopasowany tekst w strumieniu?
Czy reguła kosztów pokazuje dopasowany tekst w strumieniu?
Nie. Reguła
max_chars nie ma pojęcia podłańcucha, więc
strumień Matches rejestruje, że
limit zadziałał — jego typ, akcję i etap — ale nigdy dopasowanego
podłańcucha, nawet przy włączonym Log raw content. Dostajesz sygnał
że zadziałał bez ponownego przechwytywania zbyt dużego payloadu.7. Gdzie to pasuje
Limitmax_chars to tępa dźwignia kosztów — twardy sufit, nie budżet wydatków
per-klucz. Aby ograniczyć dolary zamiast znaków, ustaw credit_limit_usd
na samym kluczu API (0 = bez limitu), który brama egzekwuje niezależnie od
jakiegokolwiek guardrail. Oba się nawarstwiają: budżet klucza ogranicza
całkowity wydatek, guardrail kosztów ogranicza rozmiar dowolnego pojedynczego
żądania lub odpowiedzi.
8. Dokąd dalej
Reguły na etapie wejścia
Jak sprawdzanie żądania biegnie przed wywołaniem w górę i przed pomiarem.
Reguły na etapie wyjścia
Sprawdzanie i przycinanie odpowiedzi modelu, streaming i nie.
Błąd guardrail_blocked
Kształt HTTP 400, gwarancja braku kwoty i skip-retry.
Test i eval
Udowodnij limit wobec korpusu, zanim powiążesz klucz.
