1. An toàn thương hiệu AI trong một preset
Danh mục Brand trong trình chọn template guardrail là một bộ các denylist keyword. Mỗi preset là một quy tắckeyword duy nhất bạn áp
dụng trong một cú nhấp rồi chỉnh sửa — đổi các thuật ngữ hạt giống thành
danh sách của riêng bạn. Không có cuộc gọi mô hình, không có bước mạng, và
không đổi SDK: chính sách nằm ở gateway, và ứng dụng vẫn gọi
/v1/chat/completions y như trước.
Tục tĩu
Một denylist block chửi thề hoặc thuật ngữ bị cấm trên request —
hoặc một biến thể mask redact chúng thay vào đó.
Nhắc đến đối thủ
Block (hoặc gắn cờ) bất kỳ lần nhắc nào đến các tên bạn liệt kê —
giữ một copilot khỏi tâng bốc đối thủ.
An toàn trẻ em
Một denylist bảo thủ cho thuật ngữ an toàn trẻ em bạn điền từ tiêu
chuẩn của riêng bạn, được block trên request.
2. Các preset Brand, chính xác như được phát hành
Mở split-button New guardrail trong giao diện Guardrails của console và chọn danh mục template Brand. Năm hạt giống nằm ở đó:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
Một quy tắc
keyword duy nhất, giai đoạn input, hành động
block. Đi kèm với các thuật ngữ placeholder — chỉnh sửa danh sách
thành các từ bị cấm, tên đối thủ, hoặc cụm cấm thực của bạn. Một match
trả về HTTP 400 guardrail_blocked trước khi prompt rời gateway.Profanity Filter (mask)
Profanity Filter (mask)
Cùng denylist, nhưng hành động mask và giai đoạn both — các từ
bị denylist được thay bằng
[REDACTED] thay vì từ chối cuộc gọi. Lựa
chọn thay thế mềm hơn khi bạn muốn request đi qua đã được làm sạch
thay vì bị từ chối.Profanity Multilingual
Profanity Multilingual
Một quy tắc block
keyword được gieo với placeholder theo từng thị
trường (zh, es, fr, de, ja, ar). Thay mỗi cái bằng các thuật ngữ đặc
thù khu vực mà chính sách của bạn cấm — các thuật ngữ hạt giống cố ý
chung chung.Competitor Mentions
Competitor Mentions
Một quy tắc
keyword, giai đoạn input, hành động block, được
gieo với một placeholder duy nhất. Thêm tên đối thủ của bạn; đổi hành
động sang flag để giám sát các lần nhắc mà không từ chối traffic.Child Safety Keywords
Child Safety Keywords
Một denylist
keyword bảo thủ, giai đoạn input, hành động
block. Hạt giống là một placeholder có chủ đích — điền nó bằng các
thuật ngữ chính xác từ chính sách hoặc tiêu chuẩn an toàn của riêng bạn
trước khi bạn dựa vào nó.Một preset là một hạt giống, không phải một khóa. Mỗi preset Brand đi
kèm với các thuật ngữ placeholder để quy tắc hợp lệ ngay khi mở hộp — bạn
được kỳ vọng chỉnh sửa denylist cho thương hiệu của bạn trước khi gắn một
key. Các preset cố ý không đi kèm danh sách từ-bị-cấm hoặc an-toàn-trẻ-em
thực.
3. Áp dụng một preset Brand trong console
Mọi bước ở đây là một hành động console dưới phiên của riêng bạn. Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace. Chỉ cuộc gọi/v1/* cuối cùng dùng một relay key sk-orca-....
Mở template
Trong console, mở Guardrails, nhấn split-button New guardrail,
và chọn Competitor Mentions (hoặc bất kỳ preset Brand nào) từ danh
mục template Brand.
Chỉnh sửa denylist
Thay placeholder hạt giống bằng các thuật ngữ thực của bạn — ví dụ tên
các đối thủ của bạn. Đặt cho guardrail một tên (≤ 64 ký tự), như
brand-safety, và lưu.Test nó
Mở tab Test, dán một mẫu ở giai đoạn
input, và chạy chính sách
cục bộ — không có cuộc gọi thượng nguồn, không quota (xem
§5).Gắn một key
Chỉnh sửa một API key và chọn
brand-safety từ dropdown Guardrail
(đặt guardrail_id trên key), hoặc đánh dấu nó là mặc định
workspace. Xem
Gắn vào một key và
Mặc định tài khoản.4. Một ví dụ cụ thể
Một guardrail nhắc-đến-đối-thủ tênbrand-safety được gắn vào một key.
Placeholder hạt giống đã được thay bằng tên thực Acme. Gọi gateway y
như trước — không có header mới:
keyword match Acme trên request, và gateway từ chối cuộc gọi
với HTTP 400 guardrail_blocked — nêu tên guardrail và quy tắc đã
kích hoạt — trước khi bất cứ thứ gì đến mô hình thượng nguồn.
Ưu tiên mask hơn block cho lời tục khi bạn muốn làm sạch prompt
thay vì từ chối nó — các từ bị denylist render thành [REDACTED] và
request đi qua. Ưu tiên flag cho các lần nhắc đến đối thủ khi bạn muốn
đo phơi nhiễm trước khi bắt đầu block. Trang
Hành động bao quát toàn bộ đánh đổi
block / mask / flag.
5. Test trước khi bạn gắn
Chứng minh denylist làm điều bạn kỳ vọng trước khi bất kỳ key nào trỏ vào nó. Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạninput, và chạy:
6. Xem cái gì đã kích hoạt
Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — hiện ra trong feed Matches của workspace (GET /api/guardrail/match, Member). Bản thân chuỗi con đã
match (từ bị cấm, tên đối thủ) được ghi lại chỉ khi Log raw
content được bật, mà mặc định tắt.
Đối với một denylist an-toàn-trẻ-em, để Log raw content tắt thường là
chính điểm: bạn được thấy rằng một thuật ngữ đã bị block và bao lâu một
lần mà không sao chép thuật ngữ lại vào telemetry của riêng bạn. Bật nó
cho từng guardrail chỉ khi bạn cần chuỗi con để phân loại; cài đặt không
hồi tố. Xem Matches feed và
Logging & quyền riêng tư.
7. Đi đâu tiếp theo
Lọc từ nhạy cảm
Cơ chế denylist-keyword đằng sau mọi preset Brand, chuyên sâu.
Block secret
Bắt API key và thông tin xác thực với preset Secrets Blocker.
Tinh chỉnh dương tính giả
Đánh dấu dương tính giả và siết chặt denylist từ Matches feed.
Template
Thư viện preset đầy đủ trên mọi danh mục.
