1. Tại sao sàng lọc tại gateway quan trọng cho phòng thủ jailbreak LLM
An toàn huấn luyện của chính mô hình là hàng phòng thủ đầu tiên, không phải duy nhất. Mô hình được tái huấn luyện trên corpus tấn công mới, nhưng cụm từ jailbreak tiến hóa nhanh hơn chu kỳ huấn luyện. Một quy tắc gateway kích hoạt tất định — nó không phụ thuộc vào trạng thái nội tại của mô hình — và nó áp dụng đồng đều trên mọi mô hình đằng sau key của bạn, bao gồm fine-tune và open weight có thể có guardrail built-in yếu hơn. Sàng lọc tại gateway cũng cho bạn audit trail. Mọi quy tắc kích hoạt đều vào feed Matches của workspace — loại quy tắc, hành động, chi tiết, stage — độc lập với những gì mô hình cuối cùng trả về.2. Hai loại quy tắc để sàng lọc jailbreak
Engine guardrail của OrcaRouter cung cấp hai cách tiếp cận bổ trợ. Dùng chúng cùng nhau để phòng thủ theo chiều sâu.Kiểm tra ngữ nghĩa — llm_judge
Một quy tắc llm_judge chạy kiểm tra ngữ nghĩa đối với một mô hình
trong workspace của bạn. Bạn viết rubric mô tả những gì được coi là
nỗ lực jailbreak; engine thêm phụ lục JSON-schema để mô hình trả về
verdict có thể parse được.
judge_fail_open: true (mặc định) có nghĩa là timeout hoặc lỗi judge
được ghi lại như telemetry và request tiếp tục — an toàn suy giảm, tính
sẵn sàng được bảo toàn. Đặt thành false để fail closed nếu một kiểm
tra bị bỏ lỡ là không chấp nhận được với use case của bạn.
Lời gọi judge định tuyến qua các kênh workspace của bạn; token được
tính phí và quy gán như sub-line judge.
Denylist literal — keyword và regex
Cho các cụm từ jailbreak đã biết và pattern cấu trúc, quy tắc keyword
và regex là tất định và thêm zero độ trễ — chúng chạy trên hot path
mà không có network call.
keyword là so khớp chuỗi con không phân biệt hoa thường. Một thuật
ngữ như do anything now cũng khớp Do Anything Now và you can do anything now.
regex chấp nhận pattern RE2 (thời gian tuyến tính, không có
backreference). Dùng nó cho pattern thủ thuật mã hóa hoặc biến thể cấu
trúc mà danh sách literal không thể bao phủ.
3. Sàng lọc giai đoạn output
Sàng lọc input bắt nỗ lực. Sàng lọc giai đoạn output bắt bypass thành công — phản hồi không nên được tạo ra bất kể lý do tại sao. Thêm quy tắcllm_judge hoặc keyword thứ hai tại stage: "output"
để flag hoặc block phản hồi chứa nội dung không được phép trước khi nó
đến client.
Streaming vs. non-streaming
Hành động quan trọng ở đây:| Hành động | Non-streaming | Streaming |
|---|---|---|
block | Phản hồi bị giữ lại; HTTP 400 guardrail_blocked | Scanner cắt stream giữa chừng và phát ra message thay thế — nội dung bị block không bao giờ đến client |
mask | Match bị redact trong văn bản trả về | Hiện chỉ áp dụng cho phản hồi non-streaming; viết lại stream in-band có trong lộ trình |
block hoạt
động đúng.
Một request bị block không tốn quota. Một output-stage block hoàn
trả quota đã tiêu trước sau khi phản hồi bị từ chối. Caller nhận HTTP
400
guardrail_blocked đặt tên guardrail và quy tắc đã kích hoạt.4. Preset Jailbreak safety
Console đi kèm preset Jailbreak trong danh mục template Safety bên cạnh Prompt-Injection Basics. Nó kết hợp quy tắc inputllm_judge và keyword denylist của các cụm từ jailbreak đã biết như
điểm khởi đầu sẵn sàng dùng.
Để áp dụng: mở /console/guardrails → New guardrail → duyệt thư
viện template → Safety → Jailbreak. Preset là hạt giống — chỉnh
sửa rubric, mở rộng danh sách keyword, và thêm quy tắc giai đoạn output
để khớp với nhu cầu ứng dụng của bạn.
5. Test chính sách trước khi ship
Trước khi gắn guardrail jailbreak với production key, xác thực nó trong eval / red-team harness trên tab Eval bên trong guardrail editor.- Corpus đối nghịch được gói sẵn — gateway đi kèm các bộ red-team bao gồm biến thể jailbreak, lách tránh đa ngôn ngữ, và thủ thuật mã hóa. Chạy chính sách của bạn đối với chúng để đo tỷ lệ bắt trước khi nó thấy traffic thực.
- Corpus tùy chỉnh — tải lên JSONL của riêng bạn để test đối với các cụm từ cụ thể theo domain hoặc mô hình đe dọa.
- Corpus false-positive — các bộ lành tính đi kèm bên cạnh các bộ đối nghịch. Chạy cả hai để xác nhận bạn không block traffic hợp lệ.
- Các lần chạy eval được liệt kê với điểm số; mở một lần chạy để kiểm tra lỗi theo từng mẫu và tinh chỉnh rubric.
6. Hình dạng chính sách được khuyến nghị
Một chính sách jailbreak mạnh mẽ xếp chồng ba quy tắc trong một guardrail duy nhất:| # | Quy tắc | Stage | Hành động | Tại sao |
|---|---|---|---|---|
| 1 | keyword — cụm từ jailbreak đã biết | input | block | Zero độ trễ; bắt các cụm từ đã biết tất định |
| 2 | llm_judge — rubric ý đồ jailbreak | input | block | Bắt biến thể mới và thủ thuật mã hóa mà danh sách keyword bỏ lỡ |
| 3 | llm_judge — rubric phản hồi không được phép | output | block | Phòng thủ theo chiều sâu: block bypass thành công trước khi nó đến client |
block chỉ sau khi lần chạy eval cho thấy
tỷ lệ false-positive chấp nhận được. Xem
Enforcement modes để biết
pattern triển khai observe → shadow → enforce dùng hành động flag và
shadow mode.
7. Quan hệ với prompt injection
Jailbreak và prompt injection là các mối đe dọa riêng biệt nhưng chồng chéo:- Jailbreak nhắm vào an toàn huấn luyện của mô hình — kẻ tấn công kiểm soát message người dùng trực tiếp và craft nó để triệt tiêu guardrail.
- Prompt injection nhắm vào instruction-following — nội dung không đáng tin (trang web, kết quả tool, tài liệu) mang hướng dẫn mà mô hình coi là directive.
llm_judge và keyword bắt cả hai; rubric khác nhau.
Đối với workload agent tiếp nhận tài liệu hoặc nội dung web không đáng
tin, chạy sàng lọc injection bên cạnh sàng lọc jailbreak. Xem
Prompt injection để biết
pattern quy tắc cụ thể cho injection.
Tham chiếu Guardrails
Tham chiếu đầy đủ cho loại quy tắc, hành động, stage, LLM judge,
eval harness, và feed Matches.
Prompt injection
Sàng lọc hướng dẫn bị tiêm nhiễm từ nội dung không đáng tin trong
agentic pipeline.
