1. Tại sao test chính sách guardrail AI trước khi bạn gắn một key
Một chính sách nội dung có hai chế độ thất bại, và chúng kéo theo các hướng ngược nhau:- Bỏ lỡ — một cuộc tấn công hoặc một rò rỉ lọt qua vì không quy tắc nào kích hoạt.
- Dương tính giả — một prompt lành tính bị block hoặc che vì một quy tắc quá rộng.
Cả hai công cụ chạy hoàn toàn trên phiên của bạn qua management API
(
/api/guardrail/*) — không bao giờ relay key. Chúng đánh giá văn bản cục
bộ và không gửi gì lên thượng nguồn, nên một lần chạy test không tốn
quota mô hình.2. Tab Test — một mẫu, verdict tức thì
Mỗi editor guardrail có một tab Test. Dán một mẫu, chọn một giai đoạn (input hoặc output), và chạy bản nháp hiện tại của chính sách. Bạn
nhận lại decision đầy đủ — blocked, mutated, văn bản sanitized,
và danh sách violations — nên bạn có thể chứng minh một quy tắc đơn làm
điều bạn kỳ vọng trước khi lưu.
Tab Test dành cho “một quy tắc này có làm điều đúng không”. Để đo một
chính sách trên hàng trăm prompt cùng lúc, dùng Eval.
3. Tab Eval — chấm một chính sách đối với một corpus
Tab Eval chạy guardrail của bạn đối với một corpus các mẫu được gắn nhãn và báo cáo nó đã chấm thế nào: độ chính xác, độ thu hồi, và F1 tổng thể và theo từng danh mục, cộng các mẫu chính xác nó đã sai. Dùng nó để tinh chỉnh một rubricllm_judge, chứng minh một quy tắc block bắt một
họ tấn công đã biết, hoặc bắt một regex quá rộng trước khi nó bắt đầu từ
chối traffic tốt.
Một lần chạy stream tiến độ khi nó đi (một sự kiện cho mỗi mẫu hoàn thành)
và lưu một hàng chạy bạn có thể mở lại sau — queued → running → complete, với các quy tắc được snapshot lúc chạy nên một chỉnh sửa sau
đối với guardrail không bao giờ viết lại verdict của một lần chạy cũ.
Corpus đi kèm
Các bộ red-team và lành tính được nướng vào gateway — prompt injection,
jailbreak, PII/secret, đa ngôn ngữ, over-refusal. Không thiết lập.
JSONL tùy chỉnh
Tải lên bộ được gắn nhãn của riêng bạn để đo chính sách đối với các
hình dạng traffic thực của bạn.
4. Một corpus trông như thế nào (JSONL)
Một corpus là JSONL — một đối tượng JSON cho mỗi dòng. Mỗi dòng là một mẫu được gắn nhãn:text để đánh giá, stage nó thuộc về, và
expected_action mà chính sách nên tạo ra. Runner so sánh verdict thực
tế của chính sách với nhãn đó để chấm lần chạy.
Tham khảo trường
Tham khảo trường
| Trường | Ý nghĩa |
|---|---|
id | Duy nhất cho mỗi hàng. Bắt buộc — các hàng id trống bị bỏ như sai định dạng. |
text | Prompt hoặc completion để đánh giá. Bắt buộc. |
stage | input hoặc output — quy tắc của giai đoạn nào để chạy mẫu qua. |
expected_action | block, mask, flag, hoặc "" (lành tính — không hành động kỳ vọng). |
category | Nhãn tự-do nhóm các metric theo từng danh mục. |
Các hàng sai định dạng được dung thứ, không âm thầm
Các hàng sai định dạng được dung thứ, không âm thầm
Một hàng với JSON tồi hoặc thiếu
id/text được bỏ qua và đếm,
không gây tử vong — một lỗi gõ đơn không bao giờ thổi bay cả lần chạy.
Loader nâng buffer của nó cho các prompt nhiều dòng dài, nên một mẫu
với newline nhúng bên trong một chuỗi JSON parse ổn.5. Corpus đi kèm — bộ red-team, không thiết lập
Gateway phát hành một danh mục các corpus được tuyển chọn bạn có thể chạy ngay — mỗi cái mang nguồn, license, phạm vi ngôn ngữ, và một xem trước mẫu trong trình chọn của nó. Chúng được nhóm thành 11 danh mục trải bề mặt tấn công mà traffic thực thấy:| Danh mục | Nó dò gì |
|---|---|
prompt_injection | Ghi đè hướng dẫn và các submission injection viết-bởi-con-người. |
jailbreak_single_turn | Jailbreak thực ngoài đời + một baseline hành vi học thuật. |
jailbreak_encoded_multiturn | Các dò base64 / ROT13 / leetspeak / tách-payload. |
indirect_agent | Injection được giao qua output tool tới một agent dùng-tool. |
multilingual | Prompt red-team người-bản-xứ trên nhiều ngôn ngữ, gồm tài nguyên thấp. |
pii_secrets | Email, SSN, thẻ, IBAN, API key, AWS key, JWT. |
toxicity | Prompt sinh-độc-hại và các tương phản over-refusal. |
bias | Các dò khuôn mẫu và phân biệt đối xử. |
hallucination | Các bộ tính-thực-tế / trung-thực đối kháng. |
hazardous_knowledge | Các dò kiến thức dual-use hóa / sinh / cyber. |
over_refusal_benign | Các prompt an toàn trông không an toàn — bảo vệ regression dương-tính-giả của bạn. |
Corpus
owasp_llm_top10 đi kèm là một bộ test được gắn nhãn bao quát
các họ tấn công OWASP LLM Top 10 (prompt injection, jailbreak, output
không an toàn, exfil dữ liệu) — nó là một corpus để chạy một eval đối
với, không phải một gói tuân thủ. Về các gói khung materialize chính
sách, xem compliance.6. Một ví dụ cụ thể — eval preset PII Shield
Giả sử bạn bắt đầu từ preset PII Shield (một quy tắcpii duy nhất,
mask) và muốn xác nhận nó bắt các hình dạng định danh mà một mô hình có
thể phát ra trước khi bạn ràng buộc nó với một key. Chạy nó đối với corpus
pii_smoke đi kèm.
Eval là một hành động cấp-đọc (POST /api/guardrail/:id/eval,
Member) — nó lưu một hàng chạy nhưng không đột biến chính sách nào:
expected so với
got) nên bạn có thể grep corpus và sửa quy tắc. Mở lại nó bất cứ lúc nào
từ danh sách Runs (GET /api/guardrail/:id/eval/runs).
7. Corpus tùy chỉnh — test đối với traffic của riêng bạn
Các bộ đi kèm chứng minh chính sách xử lý các cuộc tấn công đã biết. Để chứng minh nó xử lý prompt của bạn, tải lên JSONL của riêng bạn. Có ba cách để trỏ một eval vào một corpus, và chúng phân giải theo thứ tự này:Tải lên ad-hoc (corpus_data)
Tải lên ad-hoc (corpus_data)
Truyền một blob JSONL mã hóa base64 inline trên request eval. Thắng mọi
cái khác — lặp trên một bộ nháp mà không lưu nó vào workspace.
Corpus đã lưu (corpus_id)
Corpus đã lưu (corpus_id)
Tải lên một lần qua
POST /api/guardrail/eval/corpora (Developer+),
rồi tham chiếu nó theo id trên các lần chạy tương lai. Tên phải khớp
^[a-z][a-z0-9_]*$ và không thể che một tên đi kèm.Đi kèm (corpus_name)
Đi kèm (corpus_name)
Đặt tên một trong các corpus được phát hành, như trong §6.
GET /api/guardrail/eval/corpora (Member); tải lên và xóa là
Developer+.
8. Đọc điểm số
Runner phân loại mỗi mẫu vào một ma trận nhầm lẫn và dẫn xuất các metric tiêu đề từ nó:| Thuật ngữ | Ý nghĩa |
|---|---|
| Recall | Trong các prompt nên kích hoạt chính sách, bao nhiêu đã. Recall thấp = bỏ lỡ. |
| Precision | Trong các prompt chính sách kích hoạt, bao nhiêu nên. Precision thấp = dương tính giả. |
| F1 | Trung bình điều hòa — một số trừng phạt tinh chỉnh lệch. |
9. Đi đâu tiếp theo
Tinh chỉnh dương tính giả
Biến một danh sách failures thành một chính sách chặt hơn, ít nhiễu hơn.
Phạm vi streaming
Tổ hợp giai đoạn/hành động nào giữ vững trên traffic SSE — xác minh trước khi bạn phụ thuộc vào nó.
Matches feed
Khi đã trực tiếp, mọi quy tắc kích hoạt đáp xuống đây — đối tác production của eval.
Versioning
Diff và revert một chính sách sau khi một eval cho bạn biết thay đổi cuối đã regress.
Trang guardrail liên quan
Trang guardrail liên quan
Khái niệm & mối đe dọa liên quan
Khái niệm & mối đe dọa liên quan
Tài liệu tham khảo engine đầy đủ
Tài liệu tham khảo engine đầy đủ
Guardrails — mọi loại quy tắc, trường, và
route, bao gồm eval và API corpus.
