1. AI 防护栏模板库给你什么
一个预设是一个命名的起点,它把一个完整的Policy(一条或
多条有序规则)放进创建模态框。预设在服务端编写,因此控制台
选择器、Test 沙箱和这些
文档描述的都是完全相同的行为——只有一个真实来源。
每个预设都是种子,而不是锁。一旦你应用一个,你就拥有这份
副本:重命名它、添加或删除规则、更改一条规则的
动作或
阶段、重新调优一个检测器。
原始模板的任何东西都不约束你的编辑。
应用一个预设,像所有防护栏编写一样,是你自己工作区会话下的
控制台操作,且创建或编辑一个防护栏需要工作区中的
Developer+。只有最后的
/v1/* 中继调用使用 sk-orca-... 密钥。2. 预设类别
选择器把预设分组到八个类别。每一个都映射到一个你本来会手工 构建的常见控制:PII——脱敏或拦截个人数据
PII——脱敏或拦截个人数据
检测并脱敏(或拦截)email、电话、SSN、卡号、IP 等。从
PII Shield开始进行单规则
脱敏,或当 PII 绝不能到达提供商时用一个严格的拦截器。
Secrets——让凭证不进入提示词
Secrets——让凭证不进入提示词
在 AWS / OpenAI / GitHub 密钥、PEM 私钥、云令牌和加密钱包地址
离开网关之前拦截它们。参见
拦截密钥。
Compliance——受监管数据防护栏
Compliance——受监管数据防护栏
PCI 卡号拦截、欧盟/英国标识符拦截、医疗标识符拦截,以及一个
在不改变流量的情况下记录 PII 出现的仅观察
合规日志记录器。
Safety——注入、越狱、自残
Safety——注入、越狱、自残
针对提示注入短语、越狱 / 角色扮演模式、系统提示泄露检测和
自残拒绝列表的 keyword/regex 防护栏。参见
提示注入。
Cost——大小和长度上限
Cost——大小和长度上限
对请求提示词和模型响应的
max_chars 上限,以约束成本和延迟。
参见成本防护栏。Agent——智能体内容过滤器
Agent——智能体内容过滤器
针对智能体流程的 URL 过滤器、markdown 图片拦截(图片外泄
防御)、shell 注入模式,以及输出中 SQL 注入过滤器。参见
智能体防护栏。
Code security——密钥、许可证、高风险 API
Code security——密钥、许可证、高风险 API
.env / 密钥文件赋值拦截、对请求和模型输出上的强 copyleft
许可证 flag(GPL / AGPL / LGPL / SSPL),以及一个对引用高风险
sink(eval、os.system、pickle.loads)的提示词进行 annotate
的非拦截警示。参见
代码安全。3. 把一个预设作为种子应用
这里的每一步都是一个控制台操作。中继密钥只出现在最后的 请求中。4. 一个具体示例:播种,然后执行
应用 PII Shield 预设。它正好播下一条规则:[EMAIL]。一个携带卡号的请求会
以 HTTP 400 guardrail_blocked 被拒绝——这不消耗配额
(输入拦截在计量之前触发)并被标记为 skip-retry。参见
guardrail_blocked 错误。
5. 应用之后——其余的就是引擎
一个预设只是一种快速编写规则的方式。下游的一切都是普通的 防护栏引擎:| 你得到 | 在哪里 |
|---|---|
| 按规则的动作 | 动作 |
| 测试 + eval | 测试与 eval |
| 触发了什么 | Matches 信息流 |
| 回滚一次变更 | 版本管理 |
对一个防护栏的每次创建、更新和删除——包括你应用一个预设并保存
的那一刻——都会写入一条版本化的历史记录。你可以 diff 任意两个
版本并回退到一个更早的版本,因此编辑一个被播种的策略永不是
单向门。参见版本管理。
6. 接下来去哪里
PII Shield
一键式的 PII 脱敏预设,从头到尾。
拦截密钥
Secrets Blocker 预设——在请求中捕获密钥和凭证。
智能体防护栏
针对智能体流程的 URL、markdown 图片、shell 和 SQL 过滤器。
防护栏参考
完整引擎——每种规则类型、字段和路由。
