1. 一个预设搞定 AI 品牌安全
防护栏模板选择器中的 Brand 类别是一组keyword 拒绝列表。 每个预设是一条keyword 规则,你一键应用然后编辑——把种子词项
换成你自己的列表。没有模型调用,没有网络跳转,也无需修改
SDK:策略存在于网关中,你的应用继续像以前一样调用
/v1/chat/completions。
脏话
一份在请求上拦截脏话或禁用词项的拒绝列表——或一个改为
脱敏它们的 mask 变体。
竞争对手提及
拦截(或 flag)任何对你列出的名字的提及——让副驾驶不要
替竞争对手说好话。
儿童安全
一份你从自己标准中填充的儿童安全词项保守拒绝列表,在请求上
拦截。
2. Brand 预设,正如其发布的样子
在控制台 Guardrails 视图中打开 New guardrail 分裂按钮, 选择 Brand 模板类别。那里有五个种子:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
一条
keyword 规则,阶段 input,动作 block。随附占位
词项——把列表编辑为你真实的禁用词、竞争对手名字或禁区
短语。一个匹配会在提示词离开网关之前返回 HTTP 400
guardrail_blocked。Profanity Filter (mask)
Profanity Filter (mask)
同样的拒绝列表,但动作 mask,阶段 both——被拒绝列表
收录的词被替换为
[REDACTED] 而不是拒绝调用。当你宁愿让
请求清洗后通过而不是拒绝时的更柔和选择。Profanity Multilingual
Profanity Multilingual
一条
keyword 拦截规则,以各市场占位符(zh、es、fr、de、ja、
ar)作为种子。把每一个替换为你的策略禁用的区域特定词项——
种子词项刻意是通用的。Competitor Mentions
Competitor Mentions
一条
keyword 规则,阶段 input,动作 block,以单个
占位符作为种子。添加你的竞争对手名字;把动作切换为 flag
以在不拒绝流量的情况下监控提及。Child Safety Keywords
Child Safety Keywords
一份保守的
keyword 拒绝列表,阶段 input,动作 block。
种子是一个刻意的占位符——在你依赖它之前,用你自己的安全
策略或标准中的确切词项填充它。预设是种子,而不是锁。 每个 Brand 预设都随附占位词项,因此
规则开箱即用就有效——你需要在绑定密钥之前为你的品牌编辑拒绝
列表。这些预设刻意不随附真实的禁用词或儿童安全列表。
3. 在控制台中应用一个 Brand 预设
这里的每一步都是你自己会话下的控制台操作。创建和编辑 防护栏需要工作区中的 Developer+。只有最后的/v1/* 调用使用
sk-orca-... 中继密钥。
测试它
打开 Test 标签页,在
input 阶段粘贴一个样本,并在本地
运行该策略——没有上游调用,没有配额(参见
§5)。4. 一个具体示例
一个名为brand-safety 的竞争对手提及防护栏被绑定到一个密钥。
种子占位符已被替换为真实名字 Acme。像以前一样调用网关——
无需新的请求头:
keyword 规则在请求上匹配 Acme,网关会在任何东西到达上游
模型之前以 HTTP 400 guardrail_blocked 拒绝调用——并指明
触发的防护栏和规则。
对于脏话,当你宁愿清洗提示词而不是拒绝它时,优先用 mask
而不是 block——被拒绝列表收录的词渲染为 [REDACTED],请求
通过。对于竞争对手提及,当你想在开始拦截之前衡量暴露时,优先用
flag。动作页涵盖完整的
block / mask / flag 取舍。
5. 绑定前先测试
在任何密钥指向它之前,先证明拒绝列表如你所愿地工作。打开编辑器 内的 Test 标签页,粘贴一个样本,选择input 阶段,然后运行:
6. 查看触发了什么
每条触发的规则都会记录一条匹配——规则类型、动作、阶段和 一个详情字符串——呈现在工作区 Matches 信息流中 (GET /api/guardrail/match,Member)。匹配的子串本身(禁用词、
竞争对手名字)仅在开启 Log raw content 时才记录,而它
默认关闭。
对于一份儿童安全拒绝列表,让 Log raw content 保持关闭通常
正是重点:你能看到一个词项被拦截了以及多频繁,而不必把词项
复制回你自己的遥测。只有在你需要子串进行分诊时才按防护栏开启
它;该设置不可追溯。参见
Matches 信息流和
日志与隐私。
7. 接下来去哪里
敏感词过滤
深入介绍每个 Brand 预设背后的关键词拒绝列表机制。
拦截密钥
用 Secrets Blocker 预设捕获 API 密钥和凭证。
调优误报
从 Matches 信息流标记误报并收紧拒绝列表。
模板
跨每个类别的完整预设库。
