1. Tại sao sàng lọc output ai không an toàn ở stage output
Sàng lọc input bắt một prompt xấu. Nó không thể bắt một câu trả lời xấu: một mô hình bị dụ lệch chính sách, một fine-tune với guardrail built-in yếu hơn, hoặc một prompt hoàn toàn hợp lý nhưng tạo ra một completion bất hợp lý. Stage output là nơi bạn khẳng định “bất kể vì sao, văn bản này không rời gateway.” Một quy tắc gateway kích hoạt một cách tất định và áp dụng như nhau trên mọi mô hình đằng sau key của bạn. Và mỗi quy tắc kích hoạt đều rơi vào feed Matches của workspace — kiểu quy tắc, action, stage — nên bạn có một audit trail về những gì đã bị bắt và những gì đã được cho qua.Phòng thủ nằm ở gateway, không phải ứng dụng của bạn. Sửa guardrail và
thay đổi có hiệu lực ở cuộc gọi kế tiếp cho mọi key gắn với nó — không triển
khai lại, không thay đổi SDK. Ứng dụng của bạn vẫn gọi
/v1/chat/completions y như trước.2. Hai cách để bắt nó
Ghép một denylist tất định với một judge ngữ nghĩa để phòng thủ chiều sâu.Theo chữ — keyword / regex (độ trễ bằng không)
Theo chữ — keyword / regex (độ trễ bằng không)
Một quy tắc
keyword là một match chuỗi con không phân biệt hoa thường;
một quy tắc regex là một mẫu RE2 (thời gian tuyến tính, không
backreference). Cả hai chạy trên đường nóng không có cuộc gọi mạng — lý
tưởng cho một danh sách từ cấm đã biết, một denylist đối thủ, hoặc một
mẫu cấu trúc (một token chat-template bị rò rỉ, một cụm dứt khoát “you
are entitled to damages”).Ngữ nghĩa — llm_judge (bắt cái không regex nào bắt được)
Ngữ nghĩa — llm_judge (bắt cái không regex nào bắt được)
Một quy tắc
llm_judge đánh giá phản hồi đối với một rubric bạn viết,
dùng một mô hình trong workspace của bạn — độc tính, giọng điệu lệch
thương hiệu, lời khuyên lệch chính sách mà không danh sách theo chữ nào
nắm bắt. Nó mang theo một judge_timeout_ms, là fail-open theo mặc
định (một lỗi judge được ghi log và response tiếp tục), và token của nó
được tính bill như một sub-line judge. Xem
Tham chiếu LLM judge.3. Một ví dụ cụ thể — block độc hại, mask lệch thương hiệu
Một guardrail stage output duy nhất block một phản hồi độc hại theo ngữ nghĩa và mask các thuật ngữ thương hiệu bị cấm trong bất cứ thứ gì còn lại:/console/guardrails → New guardrail,
thêm hai quy tắc, và gắn nó vào một key từ trình sửa Token (liên kết nằm
trên key dưới dạng guardrail_id). Cấu hình chạy trên session console của
bạn, không phải key relay của bạn; chỉ cuộc gọi /v1/* bên dưới mới dùng một
key sk-orca-....
guardrail_blocked. Nếu nó sạch nhưng nhắc đến một thuật ngữ bị cấm, đoạn đó
hiển thị như một redaction có kiểu và phần còn lại chảy qua.
4. Bắt đầu từ một preset
Thư viện template New guardrail ship sẵn các điểm khởi đầu trong các danh mục Safety, Brand, và Compliance. Một preset là một hạt giống — áp dụng nó, rồi sửa tự do.| Danh mục | Preset stage output để bắt đầu |
|---|---|
| Safety | System-Prompt Leak Detector (output), Strong System Prompt Leak — flag/block các response lặp lại token system-prompt hoặc chat-template. |
| Brand | Profanity Filter (mask) — chạy trên cả hai stage và mask các từ trong denylist trong response. (Các preset kiểu block Profanity / Brand Safety và Competitor Mentions là hạt giống stage input; nhắm lại một bản sao về output nếu bạn muốn chúng sàng lọc câu trả lời.) |
| Compliance | Legal Disclaimer Enforce — flag các response đưa ra lời khuyên pháp lý/tài chính dứt khoát để đội xem xét. |
5. Streaming: cảnh báo quan trọng
Việc một quy tắc output có được thực thi trực tiếp hay không phụ thuộc vào action và việc bạn có stream hay không.| Action | Non-streaming | Streaming |
|---|---|---|
block | Response bị giữ lại; HTTP 400 guardrail_blocked | Scanner cắt stream giữa chừng và phát ra một tin nhắn thay thế — nội dung bị block không bao giờ đến được client |
mask | Match bị redact trong văn bản trả về | Hôm nay chỉ non-streaming; viết lại stream trong luồng đang nằm trong roadmap |
flag | Ghi lại một match, không thay đổi gì | Ghi lại một match, không thay đổi gì |
6. Hình dạng chính sách được khuyến nghị
Xếp ba quy tắc trong một guardrail
-
keyword/regexởoutput— bắt độ trễ bằng không cho các thuật ngữ cấm đã biết và các mẫu cấu trúc. -
llm_judgeởoutput— bắt độc tính / lệch thương hiệu / lệch chính sách theo ngữ nghĩa cho những gì danh sách theo chữ bỏ sót. -
Triển khai qua
flagtrước, theo dõi feed Matches, rồi thăng cấp lênblockmột khi tỷ lệ false-positive chấp nhận được. Xem Chế độ thực thi.
Tham chiếu Guardrails
Tham chiếu đầy đủ cho các kiểu quy tắc, action, stage, LLM judge, preset,
bộ khung eval, và feed Matches.
Rò rỉ dữ liệu
Chặn dữ liệu nhạy cảm rời đi trong response của mô hình hoặc một cuộc gọi
tool.
