跳轉到主要內容
你在客戶面前運行 AI,而你的品牌岌岌可危。一個客服機器人絕不能罵髒話、一個行銷副駕駛絕不能指名競爭對手,而你的流量中沒有任何東西該觸及兒童安全詞彙。品牌與語氣安全是強制執行這三者最快的方式:Brand 防護欄預設類別出貨時帶有你綁定到金鑰的關鍵字封鎖清單,而閘道會在每次呼叫抵達 OpenAI、Anthropic 或 Google 之前針對它們審查。 這是品牌安全使用情境的一個聚焦落地頁。完整引擎——每種規則類型、欄位與路由——請見 防護欄參考

1. 一個預設搞定 AI 品牌安全

防護欄範本選擇器中的 Brand 類別是一組關鍵字封鎖清單。每個預設是一條 keyword 規則,你一鍵套用然後編輯——把種子詞彙換成你自己的清單。沒有模型呼叫、沒有網路跳躍、無需修改 SDK:政策存在於閘道中,而你的應用程式像以前一樣繼續呼叫 /v1/chat/completions

髒話

一份在請求上封鎖罵髒話或禁用詞的封鎖清單——或一個改為遮罩它們的 mask 變體。

競爭對手提及

封鎖(或標記)任何提及你列出的名稱——讓一個副駕駛不去吹捧競爭對手。

兒童安全

一份你從自己標準填入的兒童安全詞彙保守封鎖清單,在請求上封鎖
這三者都是確定性的關鍵字比對——在上游呼叫之前於請求上執行的不分大小寫子字串掃描。它們不花費任何額外成本,也永不串列地排在模型後面。

2. Brand 預設,與出貨時完全一致

在主控台 Guardrails 檢視中開啟 New guardrail 分割按鈕並選擇 Brand 範本類別。那裡住著五顆種子:
一條單一的 keyword 規則,階段 input,動作 block。出貨時帶有預留位置詞彙——把清單編輯成你真實的禁用詞、競爭對手名稱或禁區措辭。一個匹配會在提示離開閘道之前傳回 HTTP 400 guardrail_blocked
同一份封鎖清單,但動作 mask 且階段 both——被列入封鎖清單的詞會被替換為 [REDACTED] 而非拒絕呼叫。當你想讓請求以清理後的形式通過而非拒絕時的較柔和選擇。
一條以每市場預留位置(zh、es、fr、de、ja、ar)植入的 keyword 封鎖規則。把每一個替換為你政策所禁的區域特定詞彙——種子詞彙刻意設計得很通用。
一條 keyword 規則,階段 input,動作 block,以單一預留位置植入。新增你的競爭對手名稱;把動作切換為 flag 以在不拒絕流量的情況下監控提及。
一份保守的 keyword 封鎖清單,階段 input,動作 block。種子是一個刻意的預留位置——在你依賴它之前,用你自己安全政策或標準中的確切詞彙填入它。
預設是種子,不是鎖。 每個 Brand 預設出貨時都帶有預留位置詞彙,這樣規則開箱即有效——但預期你會在綁定金鑰之前為你的品牌編輯封鎖清單。這些預設刻意不出貨真實的禁用詞或兒童安全清單。

3. 在主控台中套用一個 Brand 預設

這裡的每個步驟都是你自己工作階段下的一個主控台動作。建立與編輯防護欄需要工作區中的 Developer+。只有最後的 /v1/* 呼叫使用 sk-orca-... 中繼金鑰。
1

開啟範本

在主控台中開啟 Guardrails,按一下 New guardrail 分割按鈕,並從 Brand 範本類別選擇 Competitor Mentions(或任何 Brand 預設)。
2

編輯封鎖清單

把種子預留位置替換為你真實的詞彙——例如你競爭對手的名稱。給防護欄一個名稱(≤ 64 字元),像 brand-safety,並儲存。
3

測試它

開啟 Test 分頁,在 input 階段貼上一個樣本,並在本機執行政策——沒有上游呼叫,不消耗配額(參見 §5)。
4

綁定一把金鑰

編輯一個 API 金鑰並從 Guardrail 下拉選單選擇 brand-safety(在金鑰上設定 guardrail_id),或將它標記為工作區預設值。參見 綁定到金鑰帳戶預設值

4. 一個具體範例

一個名為 brand-safety 的競爭對手提及防護欄被綁定到一把金鑰。種子預留位置已被替換為真實名稱 Acme。像以前一樣呼叫閘道——無新標頭:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'
keyword 規則在請求上匹配 Acme,而閘道會在任何東西抵達上游模型之前以 HTTP 400 guardrail_blocked 拒絕呼叫——並指名觸發的防護欄與規則。
一個 block 裁決不消耗配額。 輸入階段封鎖在用量被計量之前觸發,而請求被標記為 skip-retry——針對另一個通道重跑同一個提示只會再次封鎖。參見 guardrail_blocked 錯誤
當你寧可清理提示而非拒絕它時,對髒話優先使用 mask 而非 block——被列入封鎖清單的詞會渲染為 [REDACTED] 而請求通過。當你想在開始封鎖之前衡量曝光時,對競爭對手提及優先使用 flag動作 頁面涵蓋了完整的 block / mask / flag 取捨。

5. 綁定前先測試

在任何金鑰指向它之前,先證明封鎖清單如你所期望地運作。開啟編輯器內的 Test 分頁,貼上一個樣本,選擇 input 階段,然後執行:
Write a tweet praising Acme over us
沙盒會在本機評估目前的政策並傳回裁決——不會向上游傳送任何東西,也不會計量任何東西。若要針對一個措辭語料庫進行掃描,評測工具 就在隔壁分頁。
一個關鍵字匹配是一次不分大小寫的子字串掃描,所以 class 也會在 classic 內匹配。讓封鎖清單項目保持具體,並在你看到真實流量後從 Matches 動態 調校誤報

6. 查看觸發了什麼

每條觸發的規則都會記錄一個 match——規則類型、動作、階段,以及一個詳情字串——呈現在工作區 Matches 動態中(GET /api/guardrail/match,Member)。匹配到的子字串本身(禁用詞、競爭對手名稱)Log raw content 開啟時才會記錄,而它預設為關閉
對一份兒童安全封鎖清單而言,讓 Log raw content 保持關閉通常就是重點:你能看到某個詞彙被封鎖了以及多常被封鎖,而不必把該詞彙複製回你自己的遙測。只在你需要子字串進行分流時才逐個防護欄開啟它;該設定不可追溯生效。參見 匹配動態日誌與隱私
每次對一個 Brand 防護欄的編輯都會在同一交易中寫入一筆版本化的歷史列——比對任意兩個版本並從 History 檢視還原。參見 版本控制

7. 下一步去哪裡

敏感詞過濾

深入每個 Brand 預設背後的關鍵字封鎖清單機制。

封鎖密鑰

用 Secrets Blocker 預設捕捉 API 金鑰與憑證。

調校誤報

從 Matches 動態標記誤報並收緊封鎖清單。

範本

跨每個類別的完整預設庫。
Brand 預設把關內容。若要阻止一個被惡意提示引導偏離品牌的模型,把它們與 提示注入防護欄越獄威脅 配對。完整引擎——階段、進階規則與路由——請閱讀 防護欄參考