An toàn thương hiệu và giọng điệu

Bạn chạy AI trước mặt khách hàng và thương hiệu của bạn đang lâm nguy. Một bot hỗ trợ không bao giờ được chửi thề, một copilot marketing không bao giờ được nêu tên một đối thủ, và không gì trong traffic của bạn nên chạm vào thuật ngữ an toàn trẻ em. An toàn thương hiệu và giọng điệu là cách nhanh nhất để thực thi cả ba: danh mục preset guardrail Brand có các denylist keyword bạn gắn vào một key, và gateway sàng lọc mọi cuộc gọi đối với chúng trước khi nó từng đến OpenAI, Anthropic, hay Google. Đây là trang đích tập trung cho trường hợp dùng an toàn thương hiệu. Về engine đầy đủ — mọi loại quy tắc, trường, và route — xem tài liệu tham khảo Guardrails.

1. An toàn thương hiệu AI trong một preset

Danh mục Brand trong trình chọn template guardrail là một bộ các denylist keyword. Mỗi preset là một quy tắc keyword duy nhất bạn áp dụng trong một cú nhấp rồi chỉnh sửa — đổi các thuật ngữ hạt giống thành danh sách của riêng bạn. Không có cuộc gọi mô hình, không có bước mạng, và không đổi SDK: chính sách nằm ở gateway, và ứng dụng vẫn gọi /v1/chat/completions y như trước.

Tục tĩu

Một denylist block chửi thề hoặc thuật ngữ bị cấm trên request — hoặc một biến thể mask redact chúng thay vào đó.

Nhắc đến đối thủ

Block (hoặc gắn cờ) bất kỳ lần nhắc nào đến các tên bạn liệt kê — giữ một copilot khỏi tâng bốc đối thủ.

An toàn trẻ em

Một denylist bảo thủ cho thuật ngữ an toàn trẻ em bạn điền từ tiêu chuẩn của riêng bạn, được block trên request.

Cả ba là so khớp keyword tất định — quét chuỗi con không phân biệt hoa thường chạy trên request trước cuộc gọi thượng nguồn. Chúng không tốn gì thêm và không bao giờ xếp hàng sau một mô hình.

2. Các preset Brand, chính xác như được phát hành

Mở split-button New guardrail trong giao diện Guardrails của console và chọn danh mục template Brand. Năm hạt giống nằm ở đó:

Profanity / Brand Safety (block)

Một quy tắc keyword duy nhất, giai đoạn input, hành động block. Đi kèm với các thuật ngữ placeholder — chỉnh sửa danh sách thành các từ bị cấm, tên đối thủ, hoặc cụm cấm thực của bạn. Một match trả về HTTP 400 guardrail_blocked trước khi prompt rời gateway.

Profanity Filter (mask)

Cùng denylist, nhưng hành động mask và giai đoạn both — các từ bị denylist được thay bằng [REDACTED] thay vì từ chối cuộc gọi. Lựa chọn thay thế mềm hơn khi bạn muốn request đi qua đã được làm sạch thay vì bị từ chối.

Profanity Multilingual

Một quy tắc block keyword được gieo với placeholder theo từng thị trường (zh, es, fr, de, ja, ar). Thay mỗi cái bằng các thuật ngữ đặc thù khu vực mà chính sách của bạn cấm — các thuật ngữ hạt giống cố ý chung chung.

Competitor Mentions

Một quy tắc keyword, giai đoạn input, hành động block, được gieo với một placeholder duy nhất. Thêm tên đối thủ của bạn; đổi hành động sang flag để giám sát các lần nhắc mà không từ chối traffic.

Child Safety Keywords

Một denylist keyword bảo thủ, giai đoạn input, hành động block. Hạt giống là một placeholder có chủ đích — điền nó bằng các thuật ngữ chính xác từ chính sách hoặc tiêu chuẩn an toàn của riêng bạn trước khi bạn dựa vào nó.

Một preset là một hạt giống, không phải một khóa. Mỗi preset Brand đi kèm với các thuật ngữ placeholder để quy tắc hợp lệ ngay khi mở hộp — bạn được kỳ vọng chỉnh sửa denylist cho thương hiệu của bạn trước khi gắn một key. Các preset cố ý không đi kèm danh sách từ-bị-cấm hoặc an-toàn-trẻ-em thực.

3. Áp dụng một preset Brand trong console

Mọi bước ở đây là một hành động console dưới phiên của riêng bạn. Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace. Chỉ cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-....

Mở template

Trong console, mở Guardrails, nhấn split-button New guardrail, và chọn Competitor Mentions (hoặc bất kỳ preset Brand nào) từ danh mục template Brand.

Chỉnh sửa denylist

Thay placeholder hạt giống bằng các thuật ngữ thực của bạn — ví dụ tên các đối thủ của bạn. Đặt cho guardrail một tên (≤ 64 ký tự), như brand-safety, và lưu.

Test nó

Mở tab Test, dán một mẫu ở giai đoạn input, và chạy chính sách cục bộ — không có cuộc gọi thượng nguồn, không quota (xem §5).

Gắn một key

Chỉnh sửa một API key và chọn brand-safety từ dropdown Guardrail (đặt guardrail_id trên key), hoặc đánh dấu nó là mặc định workspace. Xem Gắn vào một key và Mặc định tài khoản.

4. Một ví dụ cụ thể

Một guardrail nhắc-đến-đối-thủ tên brand-safety được gắn vào một key. Placeholder hạt giống đã được thay bằng tên thực Acme. Gọi gateway y như trước — không có header mới:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

Quy tắc keyword match Acme trên request, và gateway từ chối cuộc gọi với HTTP 400 guardrail_blocked — nêu tên guardrail và quy tắc đã kích hoạt — trước khi bất cứ thứ gì đến mô hình thượng nguồn.

Một verdict block không tốn quota. Một block giai đoạn input kích hoạt trước khi sử dụng được đo, và request được đánh dấu skip-retry — chạy lại cùng prompt qua một channel khác sẽ chỉ block lại. Xem lỗi guardrail_blocked.

Ưu tiên mask hơn block cho lời tục khi bạn muốn làm sạch prompt thay vì từ chối nó — các từ bị denylist render thành [REDACTED] và request đi qua. Ưu tiên flag cho các lần nhắc đến đối thủ khi bạn muốn đo phơi nhiễm trước khi bắt đầu block. Trang Hành động bao quát toàn bộ đánh đổi block / mask / flag.

5. Test trước khi bạn gắn

Chứng minh denylist làm điều bạn kỳ vọng trước khi bất kỳ key nào trỏ vào nó. Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạn input, và chạy:

Write a tweet praising Acme over us

Sandbox đánh giá chính sách hiện tại cục bộ và trả về verdict — không có gì được gửi lên thượng nguồn, không có gì được đo. Để quét đối với một corpus các cách diễn đạt, Eval harness nằm cách một tab.

Một match keyword là một lần quét chuỗi con không phân biệt hoa thường, nên class cũng sẽ match bên trong classic. Giữ các mục denylist cụ thể, và tinh chỉnh dương tính giả từ Matches feed khi bạn thấy traffic thực.

6. Xem cái gì đã kích hoạt

Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — hiện ra trong feed Matches của workspace (GET /api/guardrail/match, Member). Bản thân chuỗi con đã match (từ bị cấm, tên đối thủ) được ghi lại chỉ khi Log raw content được bật, mà mặc định tắt.

Đối với một denylist an-toàn-trẻ-em, để Log raw content tắt thường là chính điểm: bạn được thấy rằng một thuật ngữ đã bị block và bao lâu một lần mà không sao chép thuật ngữ lại vào telemetry của riêng bạn. Bật nó cho từng guardrail chỉ khi bạn cần chuỗi con để phân loại; cài đặt không hồi tố. Xem Matches feed và Logging & quyền riêng tư.

Mỗi lần chỉnh sửa một guardrail Brand viết một hàng lịch sử có phiên bản trong cùng transaction — diff bất kỳ hai phiên bản nào và revert từ giao diện History. Xem Versioning.

7. Đi đâu tiếp theo

Lọc từ nhạy cảm

Cơ chế denylist-keyword đằng sau mọi preset Brand, chuyên sâu.

Block secret

Bắt API key và thông tin xác thực với preset Secrets Blocker.

Tinh chỉnh dương tính giả

Đánh dấu dương tính giả và siết chặt denylist từ Matches feed.

Template

Thư viện preset đầy đủ trên mọi danh mục.

Các preset Brand gate nội dung. Để chặn một mô hình bị lái lệch khỏi thương hiệu bởi một prompt độc hại, ghép chúng với guardrail prompt-injection và mối đe dọa jailbreak. Về engine hoàn chỉnh — giai đoạn, quy tắc nâng cao, và route — đọc tài liệu tham khảo Guardrails.

​1. An toàn thương hiệu AI trong một preset

Tục tĩu

Nhắc đến đối thủ

An toàn trẻ em

​2. Các preset Brand, chính xác như được phát hành

​3. Áp dụng một preset Brand trong console

​4. Một ví dụ cụ thể

​5. Test trước khi bạn gắn

​6. Xem cái gì đã kích hoạt

​7. Đi đâu tiếp theo

Lọc từ nhạy cảm

Block secret

Tinh chỉnh dương tính giả

Template

1. An toàn thương hiệu AI trong một preset

2. Các preset Brand, chính xác như được phát hành

3. Áp dụng một preset Brand trong console

4. Một ví dụ cụ thể

5. Test trước khi bạn gắn

6. Xem cái gì đã kích hoạt

7. Đi đâu tiếp theo