1. Bảo vệ prompt injection trong ba lớp
Không một kiểm tra đơn lẻ nào chặn mọi injection. OrcaRouter cho bạn ba lớp bổ trợ bạn có thể chồng trên một guardrail:Prompt-Injection Basics
Một preset an toàn — một quy tắc keyword gắn cờ các cụm
jailbreak kinh điển (“ignore previous instructions”, “reveal your
system prompt”) để xem xét, mà không block. Tất định, không có
cuộc gọi mô hình.
Quy tắc ý đồ LLM-judge
Một quy tắc
llm_judge hỏi một mô hình trong workspace của bạn “đây
có phải nỗ lực ghi đè hướng dẫn hệ thống không?” — bắt injection được
diễn giải lại và làm rối mà không danh sách keyword cố định nào làm
được. Tính một sub-line judge nhỏ.Spotlight văn bản không đáng tin cậy
Hành động
spotlight bọc input không đáng tin cậy đã match trong các
dấu phân cách (ví dụ ⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) và bảo mô hình xử lý
vùng đó như dữ liệu, không bao giờ là hướng dẫn — phòng thủ mạnh
nhất cho injection gián tiếp từ nội dung được truy xuất hoặc do tool
trả về. Dùng spotlight_whole để bọc toàn bộ input.Tại sao flag-rồi-judge. Một denylist keyword nhanh và miễn phí nhưng
mong manh — kẻ tấn công viết lại quanh nó. Một judge mạnh mẽ nhưng tốn
một sub-call. Chạy preset để xem cái gì đập vào traffic của bạn, rồi
thêm judge để bắt các cách viết lại. Cả hai quy tắc nằm trên một guardrail
và chạy trên cùng một request.
2. Bắt đầu với preset Prompt-Injection Basics
Mọi bước ở đây là một hành động console trên gateway được lưu trữ dưới phiên của riêng bạn. Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace. Chỉ cuộc gọi/v1/* cuối cùng dùng một
relay key sk-orca-....
Mở template
Trong console, mở Guardrails, nhấn split-button New guardrail,
và chọn Prompt-Injection Basics từ danh mục template Safety.
Nó gieo một quy tắc
keyword duy nhất trên giai đoạn input với hành
động flag.Đặt tên và lưu
Đặt tên nó (≤ 64 ký tự), ví dụ
prompt-injection, và lưu. Một preset
là một hạt giống, không phải một khóa — thêm hoặc bớt cụm tự do sau đó.Test nó
Mở tab Test, dán một mẫu ở giai đoạn
input, và chạy chính sách
cục bộ — không có cuộc gọi thượng nguồn, không quota (xem
§4).Gắn một key
Chỉnh sửa một API key và chọn
prompt-injection từ dropdown
Guardrail (đặt guardrail_id trên key), hoặc đánh dấu nó là mặc
định workspace. Xem
Gắn vào một key và
Mặc định tài khoản.3. Bắt cái keyword bỏ lỡ — thêm một quy tắc llm_judge
So khớp keyword chỉ bắt các cụm bạn liệt kê. Thêm một quy tắcllm_judge
vào cùng guardrail để bắt ý đồ đằng sau một cuộc tấn công được viết
lại. Mở guardrail, Add rule, chọn LLM judge, và cấu hình:
judge_model
judge_model
Một mô hình hoặc alias router mà workspace của bạn đã có thể gọi. Cuộc
gọi judge định tuyến qua channel của bạn, nên token của nó tính tiền
và quy gán như bất kỳ cuộc gọi nào khác — dưới dạng một sub-line
judge.
judge_format
judge_format
Một trong
yes_no, score, hoặc category. Cho một kiểm tra
injection, yes_no là phù hợp tự nhiên (console chọn sẵn nó). Với
score, đặt judge_threshold; với category, liệt kê các
judge_categories bị từ chối.judge_timeout_ms và judge_fail_open
judge_timeout_ms và judge_fail_open
judge_timeout_ms giới hạn cuộc gọi (0 → mặc định engine). Với
judge_fail_open true (mặc định), một lỗi judge được ghi lại và
request tiếp tục; đặt nó false để xử lý một lỗi hoặc timeout như một
block ở nơi một kiểm tra bị bỏ lỡ là không chấp nhận được.4. Test trước khi bạn gắn
Chứng minh guardrail làm điều bạn kỳ vọng trước khi bất kỳ key nào trỏ vào nó. Mở tab Test bên trong editor, dán một mẫu injection, chọn giai đoạninput, và chạy:
5. Xem cái gì đã kích hoạt
Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — hiện ra trong feed Matches của workspace. Khi guardrail ở chế độ flag, feed này chính là giá trị: nó cho bạn thấy các cụm injection đập vào traffic của bạn bao lâu một lần và chúng trông như thế nào, nên bạn có thể quyết định có thực thi hay không.6. Chồng nó với các anh em nghiêm ngặt hơn
Prompt-Injection Basics là điểm khởi đầu nhẹ nhàng, chỉ-flag. Danh mục template Safety có các anh em nghiêm ngặt hơn bạn có thể xếp lớp trên cùng guardrail khi bạn sẵn sàng block:| Preset | Hành động | Bắt |
|---|---|---|
| Prompt-Injection Basics | flag | Các cụm kinh điển — lớp theo dõi. |
| Jailbreak / Role-Play Blocker | block | Các pattern DAN / developer-mode / “act as”. |
| Jailbreak v2 Regex | block | Các mode mới hơn + lén lút tag-byte Unicode vô hình. |
7. Guardrails sàng lọc văn bản; firewall quản trị hành động
Một guardrail chặn hướng dẫn được inject khỏi đến mô hình. Nhưng mục tiêu của một injection thành công thường là làm một agent làm gì đó — gọi một tool nguy hiểm, exfiltrate dữ liệu, đập vào một host nội bộ. Bán kính vụ nổ đó là việc của Firewall: nó đánh giá các lời gọi tool mô hình phát ra và có thểdeny, sanitize đối số, hoặc
yêu cầu phê duyệt. Chạy cả hai để phòng thủ theo chiều sâu.
Prompt injection (mối đe dọa)
Mô hình mối đe dọa đầy đủ và nơi mỗi kiểm soát ngồi.
Jailbreak
Người anh em bypass-persona của injection.
Lời gọi tool nguy hiểm
Cái mà một injection cố làm một agent làm — và cách firewall chặn nó.
Bảo mật AI agent
Control stack nền tảng cho các workload agentic.
llm_judge, versioning, và route — đọc
tài liệu tham khảo Guardrails.