Mọi thứ ở đây là chỉ-đọc hoặc sandbox — không có block hướng-người-dùng,
không có traffic production bị ảnh hưởng. (Các quy tắc từ khóa, regex, và
PII chạy hoàn toàn cục bộ; một quy tắc
llm_judge vẫn gọi mô hình được cấu
hình của nó, nên một eval trên một chính sách judge có thực hiện cuộc gọi
đó.) Điểm cốt lõi là làm hỏng mọi thứ trước khi ra mắt, theo điều khoản
của bạn.1. Làm thế nào để red team một AI agent trước khi ra mắt
Một red team tiền-ra-mắt trả lời ba câu hỏi, và OrcaRouter có một tool cho mỗi câu:Guardrail của tôi có bắt được các cuộc tấn công không?
Chạy bộ Eval của guardrail đối với các corpora đối kháng đi kèm và
đọc lại precision / recall / F1.
Firewall của tôi sẽ làm hỏng cái gì?
Bật shadow mode và theo dõi các cuộc gọi tool thực nào sẽ bị deny
— mà chưa deny cái nào.
Một tư thế chặt hơn có an toàn không?
Mô phỏng một cấp độ tự chủ để xem trước chính xác những gì nó sẽ
thay đổi đối với traffic của bạn trước khi bạn áp dụng nó.
2. Chấm điểm guardrail của bạn đối với các corpora đối kháng
Cách nhanh nhất để biết liệu một chính sách nội dung có sống sót khi tiếp xúc với một kẻ tấn công là ném một corpus các cuộc tấn công đã biết vào nó và đọc điểm. Tab Eval của trình soạn guardrail làm chính xác điều đó: nó phát lại mọi mẫu trong một corpus qua chính sách hiện tại của bạn và so verdict với kết quả mong đợi của mỗi mẫu — phát lại corpus cục bộ đối với các quy tắc của bạn, không bao giờ đối với traffic trực tiếp. OrcaRouter cung cấp các corpora red-team đi kèm để bạn không phải tự tìm nguồn. Trong số đó:| Corpus | Nó là gì |
|---|---|
advbench_harmful_behaviors | Tập đích adversarial-suffix kinh điển — mỗi hàng là một request không an toàn mà một guardrail nên block. |
anthropic_hh_redteam | Các transcript red-team đa-lượt thực của con người đối với một assistant. |
deepset_prompt_injections | Các request prompt-injection vs lành tính đã gán nhãn — một baseline precision/recall cho một block stage input. |
databricks_dolly_benign | Một baseline lành tính thuần túy: một chính sách quá nghiêm ngặt nên block không cái nào trong số này. |
deepset_prompt_injections đi kèm:
- TP / FP / FN / TN — true/false positive và negative, nơi một “false positive” bao gồm bắt một cuộc tấn công với sai lớp hành động (vd: mask khi bạn mong đợi một block).
- Precision / Recall / F1 — các con số tiêu đề. Recall thấp nghĩa là các cuộc tấn công lọt qua; precision thấp nghĩa là bạn đang block traffic lành tính.
Phòng thủ prompt-injection nằm ở đâu. Preset Prompt-Injection Basics
đi kèm là một quy tắc từ khóa trên hành động flag — nó làm nổi các cụm
jailbreak phổ biến để xem xét mà không block người dùng. Cho ý định
injection ngữ nghĩa mà không danh sách từ khóa nào nắm bắt, thêm một quy tắc
llm_judge và red-team nó theo cùng cách: eval nó đối với
deepset_prompt_injections và anthropic_hh_redteam và đọc F1. Xem
tham chiếu guardrail.3. Shadow-mode firewall đối với traffic thực
Một eval guardrail test văn bản đối với một corpus cố định. Firewall của bạn, ngược lại, cần được test đối với thực tế lộn xộn của những gì agent của bạn thực sự làm — và cách an toàn nhất để làm điều đó trước khi ra mắt là shadow mode. Shadow mode là một cờ theo từng chính sách khiến firewall đánh giá và ghi log mọi cuộc gọi tool chính xác như nó sẽ làm trong production, nhưng hạ cấp mọi verdict thực thi thànhaudit. Một deny trở thành một hàng audit mà
lý do của nó được thêm tiền tố [shadow] would …. Không có gì bị block.
Không có gì hỏng. Nhưng feed Events giờ cho bạn xem danh sách chính xác
các cuộc gọi mà chính sách của bạn sẽ từ chối.
Đây là red team firewall: soạn chính sách nghiêm ngặt nhất bạn dự định, bật
shadow mode, chạy agent của bạn qua một buổi tổng duyệt ra mắt thực tế, rồi
đọc các sự kiện [shadow] would ….
Soạn chính sách, rồi shadow nó
Soạn chính sách, rồi shadow nó
Xây dựng chính sách thực thi của bạn trong console (Developer+) —
cho một dry-run ra mắt, đặt
default_verdict thành audit và thêm các
quy tắc deny bạn định ship. Bật shadow mode. Cả chính sách giờ ghi
log mà không thực thi.Tập luyện agent như thể là ngày ra mắt
Tập luyện agent như thể là ngày ra mắt
Chạy các luồng agent thực của bạn đối với gateway với một key gắn vào
chính sách được shadow. Mọi cuộc gọi tool — inbound, response, dispatch
MCP, egress — được đánh giá và ghi log.
Đọc danh sách would-block
Đọc danh sách would-block
Mở Firewall → Events (Developer+) và lọc cho các lý do
[shadow] would …. Mỗi cái là một cuộc gọi mà chính sách của bạn sẽ deny trong
production. Xác nhận mọi mục nhập là một cuộc gọi bạn muốn deny — và
rằng không có gì hợp lệ trong danh sách.Tắt shadow để go live
Tắt shadow để go live
Một khi danh sách would-block sạch, tắt shadow mode. Ngay cuộc gọi khớp
kế tiếp được thực thi thật — không thay đổi nào khác.
4. Mô phỏng một tư thế chặt hơn trước khi bạn cam kết
Động tác red-team thứ ba là rẻ nhất: trước khi bạn áp dụng một cấp độ tự chủ autonomy level chặt hơn, mô phỏng nó. Bộ mô phỏng xem trước những gì việc áp dụngtight (hoặc
bất kỳ cấp độ nào) sẽ thay đổi đối với traffic gần đây của workspace bạn —
bao nhiêu cuộc gọi sẽ lật sang deny — mà không ghi một hàng chính sách
nào.
tight chưa?” trước khi ra mắt: nếu xem trước cho thấy một bức
tường các deny tiềm năng trên các cuộc gọi mà agent của bạn phụ thuộc vào,
bạn có các quy tắc cần làm mềm trước go-live, không phải một sự cố sau
nó.
Mô phỏng là chỉ-xem-trước — nó không bao giờ biến đổi các chính sách của
bạn. Áp dụng một cấp độ tự chủ là một hành động Developer+ riêng, và nó
là một transaction với hoàn tác một cú nhấp nếu kết quả trực tiếp vẫn làm
bạn bất ngờ.
5. Checklist red-team tiền-ra-mắt
Ghép ba lượt lại với nhau và bạn có một cổng ra mắt:| Lượt | Tool | Xanh khi |
|---|---|---|
| Chính sách nội dung | Guardrail Eval vs corpora tấn công + lành tính | Recall cao trên các cuộc tấn công, không block trên lành tính |
| Chính sách hành động | Firewall shadow mode vs traffic tổng duyệt | Mọi [shadow] would … là có chủ đích |
| Độ phủ | Observe mode + Discovered tools | Không tool bất ngờ nào nằm trong một khoảng trống độ phủ |
| Tư thế | Simulate cấp độ tự chủ đích | Xem trước khớp với những gì bạn mong đợi |
https://api.orcarouter.ai/v1/... y như trước.
6. Bước tiếp theo
Chế độ thực thi
Observe → shadow → enforce, triển khai an toàn mà công thức này tổng
duyệt.
Baseline Secure Agents
Mỗi cấp độ tự chủ đặt cái gì — và cách
simulate xem trước nó.Prompt injection
Mối đe dọa mà eval guardrail của bạn đang chấm điểm chống lại.
Go live
Lần chuyển production sau khi red team vượt qua.
