1. Trường hợp dùng guardrail chi phí LLM
Đòn bẩy là một loại quy tắc built-in:max_chars. Nó giới hạn số ký
tự của văn bản ở một giai đoạn. Không có cuộc gọi mô hình, không có bước
mạng — một kiểm tra độ dài tất định chạy trên request trước khi đo lường,
hoặc trên phản hồi sau khi mô hình trả về.
Hai hình dạng, được chọn bởi hành động của quy tắc:
Block request quá cỡ
Trên một quy tắc
max_chars request với hành động block, bất kỳ
prompt nào vượt giới hạn bị từ chối với HTTP 400 guardrail_blocked —
và một request bị block không tốn quota, vì block kích hoạt trước
khi sử dụng được đo.Kẹp phản hồi quá cỡ
Trên một quy tắc
max_chars với hành động mask, văn bản được cắt
cụt xuống giới hạn thay vì bị từ chối — người gọi vẫn nhận một câu trả
lời dùng được, chỉ là có giới hạn. Hữu ích ở giai đoạn phản hồi để
giới hạn egress.Giới hạn đếm ký tự (nhận biết rune —
日本語 là ba, không phải chín),
không phải token. Preset hướng-token được phát hành dịch một ngân sách
token thành một trần ký tự ở tỷ lệ char→token tiêu chuẩn; siết chặt trường
max_chars của quy tắc trực tiếp cho một ngân sách nghiêm ngặt hơn.2. Các preset cost được phát hành
Mở split-button New guardrail trong console và chọn từ danh mục template cost. Ba preset gieo một quy tắcmax_chars duy nhất mỗi cái:
| Preset | Giai đoạn · hành động | Giới hạn |
|---|---|---|
| Prompt-Size Cap | input · block | 50.000 ký tự |
| Token Cost Cap (prompt) | input · block | 200.000 ký tự (~50K token) |
| Response Size Cap | output · block | 32.000 ký tự |
max_chars, giai đoạn, hoặc hành động cho vừa ngân sách
của bạn. Soạn và chỉnh sửa guardrails yêu cầu Developer+ trong
workspace.
3. Soạn giới hạn của riêng bạn
Một quy tắc cost là quy tắc đơn giản nhất trong engine — một giai đoạn, một hành động, và một số nguyên. Để giới hạn request ở 20.000 ký tự và từ chối bất cứ thứ gì lớn hơn:max_chars phải là một số
nguyên dương; validator từ chối 0 hoặc giá trị âm.
4. Test trước khi bạn gắn
Chứng minh giới hạn kích hoạt nơi bạn kỳ vọng trước khi bất kỳ key nào trỏ vào nó. Mở tab Test bên trong editor guardrail, dán một mẫu, chọn giai đoạninput, và chạy chính sách hiện tại cục bộ — không có cuộc gọi
thượng nguồn, không quota. Một mẫu vượt-giới-hạn trả về một verdict bị
block; một mẫu dưới-giới-hạn đi qua không bị động đến.
Cho một quy tắc kẹp, sandbox hiển thị văn bản đã render bị cắt cụt, nên
bạn có thể xác nhận giới hạn đáp xuống một ranh giới rune trước khi phụ
thuộc vào nó.
5. Gắn giới hạn vào một key
Một guardrail cost phân giải chính xác như bất kỳ guardrail nào khác — gắn nó vào một API key, hoặc đặt nó làm mặc định workspace. Mọi bước ở đây là một hành động console dưới phiên của riêng bạn.Lưu guardrail
Tạo hoặc mở một guardrail trong console, thêm một quy tắc
max_chars
(hoặc áp dụng một preset cost), và lưu.Gắn một key
Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail (đặt
guardrail_id trên key), hoặc đánh dấu guardrail là mặc định
workspace. Xem
Gắn vào một key và
Mặc định tài khoản.6. Một request bị block tốn gì
Một giới hạn giai đoạn request là guardrail rẻ nhất để thực thi: nó chạy trước khi sử dụng được đo, nên một prompt quá cỡ bị từ chối ở chi phí quota bằng không.Một request quá cỡ bị block có tốn quota không?
Một request quá cỡ bị block có tốn quota không?
Không. Một block giai đoạn input kích hoạt trước khi đo lường. Một
block giai đoạn output hoàn lại quota đã tiêu trước sau khi phản hồi bị
từ chối. Dù cách nào, người gọi không trả quota, nhận HTTP 400
guardrail_blocked, và request được đánh dấu skip-retry — chạy
lại cùng prompt quá cỡ sẽ chỉ block lại. Xem
lỗi guardrail_blocked.Giới hạn phản hồi có được thực thi trên streaming không?
Giới hạn phản hồi có được thực thi trên streaming không?
Một block
max_chars trên giai đoạn output được thực thi cả hai
hướng: trên một phản hồi non-streaming, câu trả lời được sàng lọc
trước khi trả về, và trên một phản hồi streaming, một scanner cắt
stream giữa chừng khi buffer vượt giới hạn. Một mask (kẹp) trên
output hiện chỉ áp dụng cho phản hồi non-streaming. Xem
phạm vi streaming.Một quy tắc cost có hiển thị văn bản đã match trong feed không?
Một quy tắc cost có hiển thị văn bản đã match trong feed không?
Không. Một quy tắc
max_chars không có khái niệm chuỗi con, nên
Matches feed ghi lại rằng giới
hạn đã kích hoạt — loại, hành động, và giai đoạn của nó — nhưng không
bao giờ một chuỗi con đã match, kể cả với Log raw content bật. Bạn
nhận tín hiệu rằng nó đã kích hoạt mà không bắt lại payload quá cỡ.7. Nơi cái này phù hợp
Một giới hạnmax_chars là một đòn bẩy chi phí thô — một trần cứng,
không phải một ngân sách chi tiêu theo từng key. Để giới hạn đô-la
thay vì ký tự, đặt credit_limit_usd trên chính API key (0 = không giới
hạn), mà gateway thực thi độc lập với bất kỳ guardrail nào. Hai cái chồng
lên nhau: ngân sách key giới hạn tổng chi tiêu, guardrail cost giới hạn
kích thước của bất kỳ request hoặc phản hồi đơn lẻ nào.
8. Đi đâu tiếp theo
Quy tắc giai đoạn input
Cách sàng lọc request chạy trước cuộc gọi thượng nguồn và trước khi đo
lường.
Quy tắc giai đoạn output
Sàng lọc và kẹp phản hồi của mô hình, streaming và không.
Lỗi guardrail_blocked
Hình dạng HTTP 400, đảm bảo không-quota, và skip-retry.
Test & eval
Chứng minh một giới hạn đối với một corpus trước khi bạn gắn một key.
