品牌與語氣安全

你在客戶面前運行 AI，而你的品牌岌岌可危。一個客服機器人絕不能罵髒話、一個行銷副駕駛絕不能指名競爭對手，而你的流量中沒有任何東西該觸及兒童安全詞彙。品牌與語氣安全是強制執行這三者最快的方式：Brand 防護欄預設類別出貨時帶有你綁定到金鑰的關鍵字封鎖清單，而閘道會在每次呼叫抵達 OpenAI、Anthropic 或 Google 之前針對它們審查。這是品牌安全使用情境的一個聚焦落地頁。完整引擎——每種規則類型、欄位與路由——請見防護欄參考。

1. 一個預設搞定 AI 品牌安全

防護欄範本選擇器中的 Brand 類別是一組關鍵字封鎖清單。每個預設是一條 keyword 規則，你一鍵套用然後編輯——把種子詞彙換成你自己的清單。沒有模型呼叫、沒有網路跳躍、無需修改 SDK：政策存在於閘道中，而你的應用程式像以前一樣繼續呼叫 /v1/chat/completions。

髒話

一份在請求上封鎖罵髒話或禁用詞的封鎖清單——或一個改為遮罩它們的 mask 變體。

競爭對手提及

封鎖（或標記）任何提及你列出的名稱——讓一個副駕駛不去吹捧競爭對手。

兒童安全

一份你從自己標準填入的兒童安全詞彙保守封鎖清單，在請求上封鎖。

這三者都是確定性的關鍵字比對——在上游呼叫之前於請求上執行的不分大小寫子字串掃描。它們不花費任何額外成本，也永不串列地排在模型後面。

2. Brand 預設，與出貨時完全一致

在主控台 Guardrails 檢視中開啟 New guardrail 分割按鈕並選擇 Brand 範本類別。那裡住著五顆種子：

Profanity / Brand Safety (block)

一條單一的 keyword 規則，階段 input，動作 block。出貨時帶有預留位置詞彙——把清單編輯成你真實的禁用詞、競爭對手名稱或禁區措辭。一個匹配會在提示離開閘道之前傳回 HTTP 400 guardrail_blocked。

Profanity Filter (mask)

同一份封鎖清單，但動作 mask 且階段 both——被列入封鎖清單的詞會被替換為 [REDACTED] 而非拒絕呼叫。當你想讓請求以清理後的形式通過而非拒絕時的較柔和選擇。

Profanity Multilingual

一條以每市場預留位置（zh、es、fr、de、ja、ar）植入的 keyword 封鎖規則。把每一個替換為你政策所禁的區域特定詞彙——種子詞彙刻意設計得很通用。

Competitor Mentions

一條 keyword 規則，階段 input，動作 block，以單一預留位置植入。新增你的競爭對手名稱；把動作切換為 flag 以在不拒絕流量的情況下監控提及。

Child Safety Keywords

一份保守的 keyword 封鎖清單，階段 input，動作 block。種子是一個刻意的預留位置——在你依賴它之前，用你自己安全政策或標準中的確切詞彙填入它。

預設是種子，不是鎖。 每個 Brand 預設出貨時都帶有預留位置詞彙，這樣規則開箱即有效——但預期你會在綁定金鑰之前為你的品牌編輯封鎖清單。這些預設刻意不出貨真實的禁用詞或兒童安全清單。

3. 在主控台中套用一個 Brand 預設

這裡的每個步驟都是你自己工作階段下的一個主控台動作。建立與編輯防護欄需要工作區中的 Developer+。只有最後的 /v1/* 呼叫使用 sk-orca-... 中繼金鑰。

開啟範本

在主控台中開啟 Guardrails，按一下 New guardrail 分割按鈕，並從 Brand 範本類別選擇 Competitor Mentions（或任何 Brand 預設）。

編輯封鎖清單

把種子預留位置替換為你真實的詞彙——例如你競爭對手的名稱。給防護欄一個名稱（≤ 64 字元），像 brand-safety，並儲存。

測試它

開啟 Test 分頁，在 input 階段貼上一個樣本，並在本機執行政策——沒有上游呼叫，不消耗配額（參見 §5）。

綁定一把金鑰

編輯一個 API 金鑰並從 Guardrail 下拉選單選擇 brand-safety（在金鑰上設定 guardrail_id），或將它標記為工作區預設值。參見綁定到金鑰和帳戶預設值。

4. 一個具體範例

一個名為 brand-safety 的競爭對手提及防護欄被綁定到一把金鑰。種子預留位置已被替換為真實名稱 Acme。像以前一樣呼叫閘道——無新標頭：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

keyword 規則在請求上匹配 Acme，而閘道會在任何東西抵達上游模型之前以 HTTP 400 guardrail_blocked 拒絕呼叫——並指名觸發的防護欄與規則。

一個 block 裁決不消耗配額。 輸入階段封鎖在用量被計量之前觸發，而請求被標記為 skip-retry——針對另一個通道重跑同一個提示只會再次封鎖。參見 guardrail_blocked 錯誤。

當你寧可清理提示而非拒絕它時，對髒話優先使用 mask 而非 block——被列入封鎖清單的詞會渲染為 [REDACTED] 而請求通過。當你想在開始封鎖之前衡量曝光時，對競爭對手提及優先使用 flag。動作頁面涵蓋了完整的 block / mask / flag 取捨。

5. 綁定前先測試

在任何金鑰指向它之前，先證明封鎖清單如你所期望地運作。開啟編輯器內的 Test 分頁，貼上一個樣本，選擇 input 階段，然後執行：

Write a tweet praising Acme over us

沙盒會在本機評估目前的政策並傳回裁決——不會向上游傳送任何東西，也不會計量任何東西。若要針對一個措辭語料庫進行掃描，評測工具就在隔壁分頁。

一個關鍵字匹配是一次不分大小寫的子字串掃描，所以 class 也會在 classic 內匹配。讓封鎖清單項目保持具體，並在你看到真實流量後從 Matches 動態調校誤報。

6. 查看觸發了什麼

每條觸發的規則都會記錄一個 match——規則類型、動作、階段，以及一個詳情字串——呈現在工作區 Matches 動態中（GET /api/guardrail/match，Member）。匹配到的子字串本身（禁用詞、競爭對手名稱）只在 Log raw content 開啟時才會記錄，而它預設為關閉。

對一份兒童安全封鎖清單而言，讓 Log raw content 保持關閉通常就是重點：你能看到某個詞彙被封鎖了以及多常被封鎖，而不必把該詞彙複製回你自己的遙測。只在你需要子字串進行分流時才逐個防護欄開啟它；該設定不可追溯生效。參見匹配動態和日誌與隱私。

每次對一個 Brand 防護欄的編輯都會在同一交易中寫入一筆版本化的歷史列——比對任意兩個版本並從 History 檢視還原。參見版本控制。

7. 下一步去哪裡

敏感詞過濾

深入每個 Brand 預設背後的關鍵字封鎖清單機制。

封鎖密鑰

用 Secrets Blocker 預設捕捉 API 金鑰與憑證。

調校誤報

從 Matches 動態標記誤報並收緊封鎖清單。

範本

跨每個類別的完整預設庫。

Brand 預設把關內容。若要阻止一個被惡意提示引導偏離品牌的模型，把它們與提示注入防護欄和越獄威脅配對。完整引擎——階段、進階規則與路由——請閱讀防護欄參考。

​1. 一個預設搞定 AI 品牌安全

髒話

競爭對手提及

兒童安全

​2. Brand 預設，與出貨時完全一致

​3. 在主控台中套用一個 Brand 預設

​4. 一個具體範例

​5. 綁定前先測試

​6. 查看觸發了什麼

​7. 下一步去哪裡

敏感詞過濾

封鎖密鑰

調校誤報

範本

1. 一個預設搞定 AI 品牌安全

2. Brand 預設，與出貨時完全一致

3. 在主控台中套用一個 Brand 預設

4. 一個具體範例

5. 綁定前先測試

6. 查看觸發了什麼

7. 下一步去哪裡