1. AI 防護欄範本庫給你什麼
一個預設是一個命名起點,它會把一個完整的Policy(一條或多條有序規則)放進建立彈窗。預設在伺服器端撰寫,所以主控台選擇器、Test 沙盒 與本文件全都描述完全相同的行為——只有一個真相來源。
每個預設是種子,不是鎖。一旦你套用一個,你就擁有那份副本:重新命名它、新增或刪除規則、變更一條規則的 動作 或 階段、重新調校一個偵測器。原始範本不會約束你的編輯。
套用一個預設,與所有防護欄撰寫一樣,是你自己工作區工作階段下的一個主控台動作,而建立或編輯防護欄需要工作區中的 Developer+。只有最後的
/v1/* 中繼呼叫使用一把 sk-orca-... 金鑰。2. 預設類別
選擇器把預設分組為八個類別。每一個都對應到一個你原本得手動建造的常見控制:PII——遮罩或封鎖個人資料
PII——遮罩或封鎖個人資料
偵測並遮罩(或封鎖)電子郵件、電話、SSN、卡號、IP 等等。從 PII Shield 開始進行單規則遮罩,或在 PII 絕不能抵達供應商時用一個嚴格封鎖器。
Secrets——讓憑證不進入提示
Secrets——讓憑證不進入提示
在 AWS / OpenAI / GitHub 金鑰、PEM 私鑰、雲端權杖與加密錢包地址離開閘道之前封鎖它們。參見 封鎖密鑰。
Compliance——受監管資料防護欄
Compliance——受監管資料防護欄
PCI 卡號封鎖、EU/UK 識別碼封鎖、醫療識別碼封鎖,以及一個在不改變流量的情況下記錄 PII 出現的僅觀察 合規記錄器。
Safety——注入、越獄、自我傷害
Safety——注入、越獄、自我傷害
針對提示注入措辭、越獄/角色扮演模式、系統提示詞洩漏偵測與自我傷害封鎖清單的關鍵字/正規表示式防護欄。參見 提示注入。
Cost——大小與長度上限
Cost——大小與長度上限
對請求提示與模型回應的
max_chars 上限,以限制成本與延遲。參見 成本防護欄。Agent——代理式內容過濾器
Agent——代理式內容過濾器
針對代理流程的 URL 過濾器、markdown 圖片封鎖(圖片外洩防禦)、shell 注入模式,以及輸出中的 SQL 注入過濾器。參見 代理式防護欄。
Code security——密鑰、授權、風險 API
Code security——密鑰、授權、風險 API
.env /密鑰檔案賦值封鎖、對請求與模型輸出的強 copyleft 授權標記(GPL / AGPL / LGPL / SSPL),以及一個非封鎖的、會註記引用高風險匯點(eval、os.system、pickle.loads)的提示的公告。參見 程式碼安全。3. 把一個預設作為種子套用
這裡的每個步驟都是一個主控台動作。中繼金鑰只在最後的請求中出現。4. 一個具體範例:植入,然後強制執行
套用 PII Shield 預設。它正好植入一條規則:[EMAIL]。一個攜帶卡號的請求會以 HTTP 400 guardrail_blocked 被拒絕——它不消耗配額(輸入封鎖在計量之前觸發)並被標記為 skip-retry。參見 guardrail_blocked 錯誤。
5. 套用之後——其餘就是引擎
一個預設只是一個撰寫規則的快速方式。下游的一切都是正常的防護欄引擎:對一個防護欄的每次建立、更新與刪除——包括你套用一個預設並儲存的那一刻——都會寫入一筆版本化的歷史列。你可以比對任意兩個版本並還原到一個較早的,所以編輯一個被植入的政策永遠不是一道單向門。參見 版本控制。
6. 下一步去哪裡
PII Shield
一鍵式 PII 遮罩預設,從頭到尾。
封鎖密鑰
Secrets Blocker 預設——捕捉請求中的金鑰與憑證。
代理式防護欄
針對代理流程的 URL、markdown 圖片、shell 與 SQL 過濾器。
防護欄參考
完整引擎——每種規則類型、欄位與路由。
