1. 一個預設搞定 AI 品牌安全
防護欄範本選擇器中的 Brand 類別是一組關鍵字封鎖清單。每個預設是一條keyword 規則,你一鍵套用然後編輯——把種子詞彙換成你自己的清單。沒有模型呼叫、沒有網路跳躍、無需修改 SDK:政策存在於閘道中,而你的應用程式像以前一樣繼續呼叫 /v1/chat/completions。
髒話
一份在請求上封鎖罵髒話或禁用詞的封鎖清單——或一個改為遮罩它們的 mask 變體。
競爭對手提及
封鎖(或標記)任何提及你列出的名稱——讓一個副駕駛不去吹捧競爭對手。
兒童安全
一份你從自己標準填入的兒童安全詞彙保守封鎖清單,在請求上封鎖。
2. Brand 預設,與出貨時完全一致
在主控台 Guardrails 檢視中開啟 New guardrail 分割按鈕並選擇 Brand 範本類別。那裡住著五顆種子:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
一條單一的
keyword 規則,階段 input,動作 block。出貨時帶有預留位置詞彙——把清單編輯成你真實的禁用詞、競爭對手名稱或禁區措辭。一個匹配會在提示離開閘道之前傳回 HTTP 400 guardrail_blocked。Profanity Filter (mask)
Profanity Filter (mask)
同一份封鎖清單,但動作 mask 且階段 both——被列入封鎖清單的詞會被替換為
[REDACTED] 而非拒絕呼叫。當你想讓請求以清理後的形式通過而非拒絕時的較柔和選擇。Profanity Multilingual
Profanity Multilingual
一條以每市場預留位置(zh、es、fr、de、ja、ar)植入的
keyword 封鎖規則。把每一個替換為你政策所禁的區域特定詞彙——種子詞彙刻意設計得很通用。Competitor Mentions
Competitor Mentions
一條
keyword 規則,階段 input,動作 block,以單一預留位置植入。新增你的競爭對手名稱;把動作切換為 flag 以在不拒絕流量的情況下監控提及。Child Safety Keywords
Child Safety Keywords
一份保守的
keyword 封鎖清單,階段 input,動作 block。種子是一個刻意的預留位置——在你依賴它之前,用你自己安全政策或標準中的確切詞彙填入它。預設是種子,不是鎖。 每個 Brand 預設出貨時都帶有預留位置詞彙,這樣規則開箱即有效——但預期你會在綁定金鑰之前為你的品牌編輯封鎖清單。這些預設刻意不出貨真實的禁用詞或兒童安全清單。
3. 在主控台中套用一個 Brand 預設
這裡的每個步驟都是你自己工作階段下的一個主控台動作。建立與編輯防護欄需要工作區中的 Developer+。只有最後的/v1/* 呼叫使用 sk-orca-... 中繼金鑰。
測試它
開啟 Test 分頁,在
input 階段貼上一個樣本,並在本機執行政策——沒有上游呼叫,不消耗配額(參見 §5)。4. 一個具體範例
一個名為brand-safety 的競爭對手提及防護欄被綁定到一把金鑰。種子預留位置已被替換為真實名稱 Acme。像以前一樣呼叫閘道——無新標頭:
keyword 規則在請求上匹配 Acme,而閘道會在任何東西抵達上游模型之前以 HTTP 400 guardrail_blocked 拒絕呼叫——並指名觸發的防護欄與規則。
當你寧可清理提示而非拒絕它時,對髒話優先使用 mask 而非 block——被列入封鎖清單的詞會渲染為 [REDACTED] 而請求通過。當你想在開始封鎖之前衡量曝光時,對競爭對手提及優先使用 flag。動作 頁面涵蓋了完整的 block / mask / flag 取捨。
5. 綁定前先測試
在任何金鑰指向它之前,先證明封鎖清單如你所期望地運作。開啟編輯器內的 Test 分頁,貼上一個樣本,選擇input 階段,然後執行:
6. 查看觸發了什麼
每條觸發的規則都會記錄一個 match——規則類型、動作、階段,以及一個詳情字串——呈現在工作區 Matches 動態中(GET /api/guardrail/match,Member)。匹配到的子字串本身(禁用詞、競爭對手名稱)只在 Log raw content 開啟時才會記錄,而它預設為關閉。
每次對一個 Brand 防護欄的編輯都會在同一交易中寫入一筆版本化的歷史列——比對任意兩個版本並從 History 檢視還原。參見 版本控制。
7. 下一步去哪裡
敏感詞過濾
深入每個 Brand 預設背後的關鍵字封鎖清單機制。
封鎖密鑰
用 Secrets Blocker 預設捕捉 API 金鑰與憑證。
調校誤報
從 Matches 動態標記誤報並收緊封鎖清單。
範本
跨每個類別的完整預設庫。
