跳轉到主要內容
把內容政策擺到每次模型呼叫前面最快的方式就是防護欄——一份工作區層級的命名政策,你在主控台中撰寫一次並綁定到 API 金鑰。閘道隨後會在下次呼叫時審查請求輸入與模型輸出,無需重新部署,也無需修改 SDK。 本頁逐步走過端到端的流程:建立防護欄、新增規則、在沙盒中測試、綁定到金鑰,然後發送一個真實請求。完整的引擎參考——每種規則類型、欄位與路由——請見 防護欄參考
這裡的每個步驟都是託管閘道(api.orcarouter.ai)上的一個主控台動作。防護欄設定在你自己的工作階段下執行;只有最後的 /v1/* 呼叫使用 sk-orca-... 中繼金鑰。建立與編輯防護欄需要工作區中的 Developer+

1. 如何用五個步驟新增 LLM 防護欄

以下是整個流程的一覽——每個步驟在下方都有展開。
1

建立防護欄

在主控台中開啟 Guardrails 並按一下 New guardrail。給它一個名稱(≤ 64 字元),例如 pii-shield
2

新增規則

input 階段新增一條帶有 mask 動作的 PII detection 規則。
3

在沙盒中測試

開啟 Test 分頁,貼上一個樣本,並在本機執行政策——沒有上游呼叫,不消耗配額。
4

綁定到金鑰

編輯一個 API 金鑰,並從 Guardrail 下拉選單選擇該防護欄。綁定關係存在於金鑰上。
5

發送請求

用該金鑰呼叫 /v1/chat/completions。閘道會在轉送前套用政策。

2. 建立防護欄

在主控台中開啟 Guardrails 並按一下 New guardrail。防護欄是一份工作區層級的命名內容政策——一份閘道會針對請求輸入與模型輸出執行的有序規則清單。把它命名為 pii-shield 並儲存。
New guardrail 分割按鈕也會直接開啟一個範本PII Shield 預設是一條 pii 規則,會遮罩 emailphonessncredit_cardip。套用預設是一顆種子,不是鎖——之後可自由編輯。瀏覽 預設範本 以獲得更多起點。

3. 新增規則

每條規則決定三件事——尋找什麼(規則類型)、在哪裡尋找(階段),以及要做什麼(動作)。新增一條規則:
  • 類型: PII detection (pii)
  • 階段: Input(請求)
  • 動作: Mask——遮罩匹配項
  • 實體: emailphonessn
mask 動作下,每個匹配項會被替換為一個具型別的標籤——電子郵件變成 [EMAIL],SSN 變成 [SSN]。七種規則類型(keywordregexpiimax_charsexternalllm_judgegrounding)與五種動作(blockmaskflagannotatespotlight)在 參考 中有涵蓋。對這第一個防護欄而言,一條遮罩規則就夠了。
遮罩在兩個階段都已上線。輸入階段規則會在模型看到請求之前遮罩它;輸出階段規則會遮罩模型的回應——在非串流回應上,以及在串流回應上逐塊處理——然後客戶端才收到。Block 在兩個階段也都會強制執行。如果你想把關模型的回應,將規則的階段設為 output(或 both);參見 輸出階段規則

4. 在沙盒中測試

在把防護欄綁定到任何金鑰之前,先證明它如你所期望地運作。開啟編輯器內的 Test 分頁,貼上一個樣本,選擇 input 階段,然後執行:
Reply to jane@acme.com please
沙盒會在本機評估目前的政策,並傳回裁決加上渲染後的文字:
Reply to [EMAIL] please
不會向上游傳送任何東西,也不會計量任何東西。若要針對一個輸入語料庫進行 A/B 網格測試,評測工具 就在隔壁分頁。

5. 綁定到金鑰

在金鑰指向防護欄之前,防護欄什麼都不做。有兩種綁定方式:

逐金鑰

編輯一個 API 金鑰,並從 Guardrail 下拉選單選擇該防護欄。這會在金鑰上設定 guardrail_id。參見 綁定到金鑰

工作區預設值

將防護欄標記為工作區預設值,這樣任何沒有明確綁定的金鑰都會繼承它。參見 帳戶預設值
解析是明確且可預測的:
順序套用什麼
1金鑰明確的 guardrail_id(如果它存在且已啟用)。
2工作區預設值(如果金鑰沒有綁定)。
3無——請求與沒有政策的工作區位元組完全一致。
明確綁定永不會靜默回退。停用一個綁定的防護欄就是關閉開關——它不會落到工作區預設值。(防火牆政策在這裡有所不同;參見 防護欄與防火牆。)

6. 發送請求

用一個綁定到 pii-shield 的金鑰,像以前一樣呼叫 OrcaRouter——無需修改 SDK,無需新標頭:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'
閘道會在轉送前將電子郵件遮罩為 [EMAIL]——上游模型永遠看不到這個地址。把規則的動作換成 block,下一個包含該實體的請求就會以 HTTP 400 guardrail_blocked 被拒絕。被封鎖的請求不消耗配額(輸入封鎖在計量之前觸發;輸出封鎖會退還已預先扣除的配額)並被標記為 skip-retry。完整的回應形狀請見 guardrail_blocked 錯誤

7. 下一步去哪裡

每條觸發的規則都會記錄一個 match——類型、動作、階段,以及一個詳情字串。匹配到的子字串只在 Log raw content 開啟時才會記錄(預設為關閉)。參見 匹配動態日誌與隱私
PII 偵測涵蓋 emailphonecredit_cardssnipibanmac_addressjwtaws_access_keyapi_key_openaibitcoin_address(外加區域性實體),而且你可以撰寫自己的。參見 PII Shield自訂 PII 實體遮罩格式
新增一個 密鑰封鎖器提示注入基礎 預設——後者會標記常見的越獄措辭以供審查。若要以語意而非措辭來捕捉注入意圖,在它旁邊新增一條 llm_judge 規則。
每次編輯都會寫入一筆版本歷史列。開啟 History 以比對與還原。參見 版本控制
防護欄審查內容。若要治理一個代理的工具呼叫——拒絕破壞性動作、設定成本上限、要求審批——請使用 防火牆。從 保護 AI 代理危險工具呼叫威脅 開始。
閱讀 防護欄參考 以了解完整引擎——規則欄位、外部廠商、評測工具與完整 API——或閱讀 安全快速入門 以將防護欄與防火牆串接起來,建立一個代理基準。