Red-team agent của bạn trước khi ra mắt

Ngày bạn đặt một agent trước người dùng là ngày tệ nhất để phát hiện ra một jailbreak đi thẳng qua chính sách nội dung của bạn, hoặc rằng một tool bạn quên quản lý kích hoạt ở lần chạy đầu tiên. Một red team tiền-ra-mắt biến những bất ngờ đó thành một con số bạn có thể đọc trước khi bạn ship — và OrcaRouter cho bạn ba cách để tạo ra nó, tất cả không chạm code agent của bạn hoặc gửi một request trực tiếp nào bạn không có ý định. Công thức này là lượt dry-run: đo một chính sách đối với các cuộc tấn công đã biết, shadow nó đối với traffic của riêng bạn, và mô phỏng một tư thế chặt hơn trước khi bạn cam kết với nó.

Mọi thứ ở đây là chỉ-đọc hoặc sandbox — không có block hướng-người-dùng, không có traffic production bị ảnh hưởng. (Các quy tắc từ khóa, regex, và PII chạy hoàn toàn cục bộ; một quy tắc llm_judge vẫn gọi mô hình được cấu hình của nó, nên một eval trên một chính sách judge có thực hiện cuộc gọi đó.) Điểm cốt lõi là làm hỏng mọi thứ trước khi ra mắt, theo điều khoản của bạn.

1. Làm thế nào để red team một AI agent trước khi ra mắt

Một red team tiền-ra-mắt trả lời ba câu hỏi, và OrcaRouter có một tool cho mỗi câu:

Guardrail của tôi có bắt được các cuộc tấn công không?

Chạy bộ Eval của guardrail đối với các corpora đối kháng đi kèm và đọc lại precision / recall / F1.

Firewall của tôi sẽ làm hỏng cái gì?

Bật shadow mode và theo dõi các cuộc gọi tool thực nào sẽ bị deny — mà chưa deny cái nào.

Một tư thế chặt hơn có an toàn không?

Mô phỏng một cấp độ tự chủ để xem trước chính xác những gì nó sẽ thay đổi đối với traffic của bạn trước khi bạn áp dụng nó.

Cái đầu test Guardrails của bạn (mặt phẳng văn bản); cái thứ hai và thứ ba test Firewall của bạn (mặt phẳng hành động). Một checklist ra mắt thực sự chạy cả ba.

2. Chấm điểm guardrail của bạn đối với các corpora đối kháng

Cách nhanh nhất để biết liệu một chính sách nội dung có sống sót khi tiếp xúc với một kẻ tấn công là ném một corpus các cuộc tấn công đã biết vào nó và đọc điểm. Tab Eval của trình soạn guardrail làm chính xác điều đó: nó phát lại mọi mẫu trong một corpus qua chính sách hiện tại của bạn và so verdict với kết quả mong đợi của mỗi mẫu — phát lại corpus cục bộ đối với các quy tắc của bạn, không bao giờ đối với traffic trực tiếp. OrcaRouter cung cấp các corpora red-team đi kèm để bạn không phải tự tìm nguồn. Trong số đó:

Corpus	Nó là gì
`advbench_harmful_behaviors`	Tập đích adversarial-suffix kinh điển — mỗi hàng là một request không an toàn mà một guardrail nên block.
`anthropic_hh_redteam`	Các transcript red-team đa-lượt thực của con người đối với một assistant.
`deepset_prompt_injections`	Các request prompt-injection vs lành tính đã gán nhãn — một baseline precision/recall cho một block stage input.
`databricks_dolly_benign`	Một baseline lành tính thuần túy: một chính sách quá nghiêm ngặt nên block không cái nào trong số này.

Luôn ghép một corpus tấn công với một corpus lành tính. Một chính sách block 100% các cuộc tấn công nhưng cũng block databricks_dolly_benign không an toàn — nó không dùng được. Lần chạy lành tính là ngân sách false-positive của bạn.

Chạy một eval đối với corpus deepset_prompt_injections đi kèm:

curl https://api.orcarouter.ai/api/guardrail/123/eval \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -H "Content-Type: application/json" \
  -d '{ "corpus_name": "deepset_prompt_injections" }'

Các route /api/guardrail/* dùng session console / access token của bạn, không phải một relay key sk-orca-... — và chúng theo phạm vi workspace qua X-Workspace-Id. Trong thực tế bạn sẽ chạy cái này từ tab Eval trong console; curl ở đây để cho thấy hình dạng. Chạy một eval mở cho mọi Member.

Lần chạy báo cáo các chỉ số phát hiện được tính đối với các hành động mong đợi:

TP / FP / FN / TN — true/false positive và negative, nơi một “false positive” bao gồm bắt một cuộc tấn công với sai lớp hành động (vd: mask khi bạn mong đợi một block).
Precision / Recall / F1 — các con số tiêu đề. Recall thấp nghĩa là các cuộc tấn công lọt qua; precision thấp nghĩa là bạn đang block traffic lành tính.

Mở lần chạy để kiểm tra các thất bại từng mẫu một, tinh chỉnh quy tắc hoặc rubric judge, và chạy lại cho đến khi điểm giữ vững. Các corpora tùy chỉnh hoạt động theo cùng cách — tải lên JSONL của riêng bạn (Developer+) để test đối với các hình dạng tấn công chính xác mà sản phẩm của bạn đối mặt.

Phòng thủ prompt-injection nằm ở đâu. Preset Prompt-Injection Basics đi kèm là một quy tắc từ khóa trên hành động flag — nó làm nổi các cụm jailbreak phổ biến để xem xét mà không block người dùng. Cho ý định injection ngữ nghĩa mà không danh sách từ khóa nào nắm bắt, thêm một quy tắc llm_judge và red-team nó theo cùng cách: eval nó đối với deepset_prompt_injections và anthropic_hh_redteam và đọc F1. Xem tham chiếu guardrail.

3. Shadow-mode firewall đối với traffic thực

Một eval guardrail test văn bản đối với một corpus cố định. Firewall của bạn, ngược lại, cần được test đối với thực tế lộn xộn của những gì agent của bạn thực sự làm — và cách an toàn nhất để làm điều đó trước khi ra mắt là shadow mode. Shadow mode là một cờ theo từng chính sách khiến firewall đánh giá và ghi log mọi cuộc gọi tool chính xác như nó sẽ làm trong production, nhưng hạ cấp mọi verdict thực thi thành audit. Một deny trở thành một hàng audit mà lý do của nó được thêm tiền tố [shadow] would …. Không có gì bị block. Không có gì hỏng. Nhưng feed Events giờ cho bạn xem danh sách chính xác các cuộc gọi mà chính sách của bạn sẽ từ chối. Đây là red team firewall: soạn chính sách nghiêm ngặt nhất bạn dự định, bật shadow mode, chạy agent của bạn qua một buổi tổng duyệt ra mắt thực tế, rồi đọc các sự kiện [shadow] would ….

Soạn chính sách, rồi shadow nó

Xây dựng chính sách thực thi của bạn trong console (Developer+) — cho một dry-run ra mắt, đặt default_verdict thành audit và thêm các quy tắc deny bạn định ship. Bật shadow mode. Cả chính sách giờ ghi log mà không thực thi.

Tập luyện agent như thể là ngày ra mắt

Chạy các luồng agent thực của bạn đối với gateway với một key gắn vào chính sách được shadow. Mọi cuộc gọi tool — inbound, response, dispatch MCP, egress — được đánh giá và ghi log.

Đọc danh sách would-block

Mở Firewall → Events (Developer+) và lọc cho các lý do [shadow] would …. Mỗi cái là một cuộc gọi mà chính sách của bạn sẽ deny trong production. Xác nhận mọi mục nhập là một cuộc gọi bạn muốn deny — và rằng không có gì hợp lệ trong danh sách.

Tắt shadow để go live

Một khi danh sách would-block sạch, tắt shadow mode. Ngay cuộc gọi khớp kế tiếp được thực thi thật — không thay đổi nào khác.

Ghép shadow mode với observe mode (một cài đặt workspace) cho độ phủ, không chỉ tính đúng đắn. Observe mode ghi log mọi cuộc gọi tool phân giải về không chính sách như một khoảng trống, nuôi chế độ xem Discovered tools — nên bạn bắt được tool bạn quên viết một quy tắc cho, không chỉ các quy tắc bạn viết sai. Xem chế độ thực thi.

4. Mô phỏng một tư thế chặt hơn trước khi bạn cam kết

Động tác red-team thứ ba là rẻ nhất: trước khi bạn áp dụng một cấp độ tự chủ autonomy level chặt hơn, mô phỏng nó. Bộ mô phỏng xem trước những gì việc áp dụng tight (hoặc bất kỳ cấp độ nào) sẽ thay đổi đối với traffic gần đây của workspace bạn — bao nhiêu cuộc gọi sẽ lật sang deny — mà không ghi một hàng chính sách nào.

curl "https://api.orcarouter.ai/api/workspace/firewall/simulate?level=tight" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"

Đọc bộ mô phỏng mở cho mọi Member. Dùng nó để trả lời “agent của tôi đã sẵn sàng cho tight chưa?” trước khi ra mắt: nếu xem trước cho thấy một bức tường các deny tiềm năng trên các cuộc gọi mà agent của bạn phụ thuộc vào, bạn có các quy tắc cần làm mềm trước go-live, không phải một sự cố sau nó.

Mô phỏng là chỉ-xem-trước — nó không bao giờ biến đổi các chính sách của bạn. Áp dụng một cấp độ tự chủ là một hành động Developer+ riêng, và nó là một transaction với hoàn tác một cú nhấp nếu kết quả trực tiếp vẫn làm bạn bất ngờ.

5. Checklist red-team tiền-ra-mắt

Ghép ba lượt lại với nhau và bạn có một cổng ra mắt:

Lượt	Tool	Xanh khi
Chính sách nội dung	Guardrail Eval vs corpora tấn công + lành tính	Recall cao trên các cuộc tấn công, không block trên lành tính
Chính sách hành động	Firewall shadow mode vs traffic tổng duyệt	Mọi `[shadow] would …` là có chủ đích
Độ phủ	Observe mode + Discovered tools	Không tool bất ngờ nào nằm trong một khoảng trống độ phủ
Tư thế	Simulate cấp độ tự chủ đích	Xem trước khớp với những gì bạn mong đợi

Chạy cả bốn xanh, rồi thực thi: tắt shadow mode và áp dụng cấp độ tự chủ của bạn. Vì mọi liên kết nằm trên key trong gateway, việc chuyển từ dry-run sang live là một thay đổi cấu hình, không phải một deploy — agent của bạn vẫn gọi https://api.orcarouter.ai/v1/... y như trước.

Masking stage output và quét response trực tiếp vẫn đang trưởng thành — một lần chạy eval chứng minh logic của một quy tắc trong sandbox, nhưng hãy xác nhận tổ hợp stage và streaming cụ thể của bạn đối với ghi chú guardrail trước khi bạn phụ thuộc vào nó trong production.

6. Bước tiếp theo

Chế độ thực thi

Observe → shadow → enforce, triển khai an toàn mà công thức này tổng duyệt.

Baseline Secure Agents

Mỗi cấp độ tự chủ đặt cái gì — và cách simulate xem trước nó.

Prompt injection

Mối đe dọa mà eval guardrail của bạn đang chấm điểm chống lại.

Go live

Lần chuyển production sau khi red team vượt qua.

Cho các engine đầy đủ đằng sau mỗi lượt, xem các tham chiếu Guardrails và Firewall, và các mối đe dọa liên quan: jailbreak và cuộc gọi tool nguy hiểm.

​1. Làm thế nào để red team một AI agent trước khi ra mắt

Guardrail của tôi có bắt được các cuộc tấn công không?

Firewall của tôi sẽ làm hỏng cái gì?

Một tư thế chặt hơn có an toàn không?

​2. Chấm điểm guardrail của bạn đối với các corpora đối kháng

​3. Shadow-mode firewall đối với traffic thực

​4. Mô phỏng một tư thế chặt hơn trước khi bạn cam kết

​5. Checklist red-team tiền-ra-mắt

​6. Bước tiếp theo

Chế độ thực thi

Baseline Secure Agents

Prompt injection

Go live

1. Làm thế nào để red team một AI agent trước khi ra mắt

2. Chấm điểm guardrail của bạn đối với các corpora đối kháng

3. Shadow-mode firewall đối với traffic thực

4. Mô phỏng một tư thế chặt hơn trước khi bạn cam kết

5. Checklist red-team tiền-ra-mắt

6. Bước tiếp theo