Guardrail kiểm soát chi phí

Một prompt mất kiểm soát là một hóa đơn mất kiểm soát. Một agent dán một bản ghi 400KB vào context, một vòng lặp retry cứ gửi lại cùng request phình to, một mô hình stream một bức tường 50.000 ký tự văn bản — mỗi cái tính token bạn không bao giờ định tiêu. Danh mục preset cost đặt một trần cứng trước các request đó để gateway chặn chúng trước khi chúng đến mô hình thượng nguồn và đo lường. Đây là trang đích tập trung cho trường hợp dùng kiểm soát chi phí. Về engine guardrail đầy đủ — mọi loại quy tắc, trường, và route — xem tài liệu tham khảo Guardrails.

1. Trường hợp dùng guardrail chi phí LLM

Đòn bẩy là một loại quy tắc built-in: max_chars. Nó giới hạn số ký tự của văn bản ở một giai đoạn. Không có cuộc gọi mô hình, không có bước mạng — một kiểm tra độ dài tất định chạy trên request trước khi đo lường, hoặc trên phản hồi sau khi mô hình trả về. Hai hình dạng, được chọn bởi hành động của quy tắc:

Block request quá cỡ

Trên một quy tắc max_chars request với hành động block, bất kỳ prompt nào vượt giới hạn bị từ chối với HTTP 400 guardrail_blocked — và một request bị block không tốn quota, vì block kích hoạt trước khi sử dụng được đo.

Kẹp phản hồi quá cỡ

Trên một quy tắc max_chars với hành động mask, văn bản được cắt cụt xuống giới hạn thay vì bị từ chối — người gọi vẫn nhận một câu trả lời dùng được, chỉ là có giới hạn. Hữu ích ở giai đoạn phản hồi để giới hạn egress.

Giới hạn đếm ký tự (nhận biết rune — 日本語 là ba, không phải chín), không phải token. Preset hướng-token được phát hành dịch một ngân sách token thành một trần ký tự ở tỷ lệ char→token tiêu chuẩn; siết chặt trường max_chars của quy tắc trực tiếp cho một ngân sách nghiêm ngặt hơn.

2. Các preset cost được phát hành

Mở split-button New guardrail trong console và chọn từ danh mục template cost. Ba preset gieo một quy tắc max_chars duy nhất mỗi cái:

Preset	Giai đoạn · hành động	Giới hạn
Prompt-Size Cap	input · block	50.000 ký tự
Token Cost Cap (prompt)	input · block	200.000 ký tự (~50K token)
Response Size Cap	output · block	32.000 ký tự

Mỗi preset là một hạt giống, không phải một khóa — áp dụng nó, rồi chỉnh sửa giá trị max_chars, giai đoạn, hoặc hành động cho vừa ngân sách của bạn. Soạn và chỉnh sửa guardrails yêu cầu Developer+ trong workspace.

Response Size Cap là một giới hạn giai đoạn output. Để kẹp một câu trả lời dài thay vì từ chối nó, đổi hành động của nó sang mask — gateway cắt phản hồi xuống giới hạn và người dùng vẫn nhận một phản hồi bị-cắt-cụt-nhưng-dùng-được thay vì một lỗi.

3. Soạn giới hạn của riêng bạn

Một quy tắc cost là quy tắc đơn giản nhất trong engine — một giai đoạn, một hành động, và một số nguyên. Để giới hạn request ở 20.000 ký tự và từ chối bất cứ thứ gì lớn hơn:

{
  "type": "max_chars",
  "stage": "input",
  "action": "block",
  "max_chars": 20000
}

Thêm nó vào bất kỳ guardrail nào trong console. max_chars phải là một số nguyên dương; validator từ chối 0 hoặc giá trị âm.

4. Test trước khi bạn gắn

Chứng minh giới hạn kích hoạt nơi bạn kỳ vọng trước khi bất kỳ key nào trỏ vào nó. Mở tab Test bên trong editor guardrail, dán một mẫu, chọn giai đoạn input, và chạy chính sách hiện tại cục bộ — không có cuộc gọi thượng nguồn, không quota. Một mẫu vượt-giới-hạn trả về một verdict bị block; một mẫu dưới-giới-hạn đi qua không bị động đến. Cho một quy tắc kẹp, sandbox hiển thị văn bản đã render bị cắt cụt, nên bạn có thể xác nhận giới hạn đáp xuống một ranh giới rune trước khi phụ thuộc vào nó.

5. Gắn giới hạn vào một key

Một guardrail cost phân giải chính xác như bất kỳ guardrail nào khác — gắn nó vào một API key, hoặc đặt nó làm mặc định workspace. Mọi bước ở đây là một hành động console dưới phiên của riêng bạn.

Lưu guardrail

Tạo hoặc mở một guardrail trong console, thêm một quy tắc max_chars (hoặc áp dụng một preset cost), và lưu.

Gắn một key

Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail (đặt guardrail_id trên key), hoặc đánh dấu guardrail là mặc định workspace. Xem Gắn vào một key và Mặc định tài khoản.

Gửi một request

Dùng key đó, gọi OrcaRouter y như trước — không có header mới, không đổi SDK:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "...a very long prompt..."}
    ]
  }'

Nếu prompt vượt giới hạn, cuộc gọi trả về HTTP 400 guardrail_blocked và không có gì được tính tiền.

6. Một request bị block tốn gì

Một giới hạn giai đoạn request là guardrail rẻ nhất để thực thi: nó chạy trước khi sử dụng được đo, nên một prompt quá cỡ bị từ chối ở chi phí quota bằng không.

Một request quá cỡ bị block có tốn quota không?

Không. Một block giai đoạn input kích hoạt trước khi đo lường. Một block giai đoạn output hoàn lại quota đã tiêu trước sau khi phản hồi bị từ chối. Dù cách nào, người gọi không trả quota, nhận HTTP 400 guardrail_blocked, và request được đánh dấu skip-retry — chạy lại cùng prompt quá cỡ sẽ chỉ block lại. Xem lỗi guardrail_blocked.

Giới hạn phản hồi có được thực thi trên streaming không?

Một block max_chars trên giai đoạn output được thực thi cả hai hướng: trên một phản hồi non-streaming, câu trả lời được sàng lọc trước khi trả về, và trên một phản hồi streaming, một scanner cắt stream giữa chừng khi buffer vượt giới hạn. Một mask (kẹp) trên output hiện chỉ áp dụng cho phản hồi non-streaming. Xem phạm vi streaming.

Một quy tắc cost có hiển thị văn bản đã match trong feed không?

Không. Một quy tắc max_chars không có khái niệm chuỗi con, nên Matches feed ghi lại rằng giới hạn đã kích hoạt — loại, hành động, và giai đoạn của nó — nhưng không bao giờ một chuỗi con đã match, kể cả với Log raw content bật. Bạn nhận tín hiệu rằng nó đã kích hoạt mà không bắt lại payload quá cỡ.

7. Nơi cái này phù hợp

Một giới hạn max_chars là một đòn bẩy chi phí thô — một trần cứng, không phải một ngân sách chi tiêu theo từng key. Để giới hạn đô-la thay vì ký tự, đặt credit_limit_usd trên chính API key (0 = không giới hạn), mà gateway thực thi độc lập với bất kỳ guardrail nào. Hai cái chồng lên nhau: ngân sách key giới hạn tổng chi tiêu, guardrail cost giới hạn kích thước của bất kỳ request hoặc phản hồi đơn lẻ nào.

Một guardrail cost sàng lọc kích thước nội dung, không phải lựa chọn mô hình hay quyết định định tuyến. Nó từ chối một prompt quá cỡ bất kể mô hình nào phục vụ nó. Để quản trị lời gọi tool của một agent — từ chối các hành động hủy hoại hoặc giữ chúng chờ phê duyệt — dùng Firewall, cái quyết định trên bề mặt lời-gọi-tool (allow / deny / pending_approval), không phải bề mặt nội dung.

8. Đi đâu tiếp theo

Quy tắc giai đoạn input

Cách sàng lọc request chạy trước cuộc gọi thượng nguồn và trước khi đo lường.

Quy tắc giai đoạn output

Sàng lọc và kẹp phản hồi của mô hình, streaming và không.

Lỗi guardrail_blocked

Hình dạng HTTP 400, đảm bảo không-quota, và skip-retry.

Test & eval

Chứng minh một giới hạn đối với một corpus trước khi bạn gắn một key.

Giới hạn cost giới hạn kích thước. Để giới hạn nội dung — PII, secret, prompt không an toàn — bắt đầu với Tổng quan Guardrails hoặc đọc tài liệu tham khảo Guardrails cho engine hoàn chỉnh.

​1. Trường hợp dùng guardrail chi phí LLM

Block request quá cỡ

Kẹp phản hồi quá cỡ

​2. Các preset cost được phát hành

​3. Soạn giới hạn của riêng bạn

​4. Test trước khi bạn gắn

​5. Gắn giới hạn vào một key

​6. Một request bị block tốn gì

​7. Nơi cái này phù hợp

​8. Đi đâu tiếp theo

Quy tắc giai đoạn input

Quy tắc giai đoạn output

Lỗi guardrail_blocked

Test & eval

1. Trường hợp dùng guardrail chi phí LLM

2. Các preset cost được phát hành

3. Soạn giới hạn của riêng bạn

4. Test trước khi bạn gắn

5. Gắn giới hạn vào một key

6. Một request bị block tốn gì

7. Nơi cái này phù hợp

8. Đi đâu tiếp theo