https://api.orcarouter.ai/v1。
1. 威胁:智能体行动,而不只是聊天
提示词级别的安全是为聊天而构建的。它假设模型生成 文本,人类阅读它。智能体打破了这一假设:- 它们摄取不可信内容——一个网页、一个检索到的文档、一个 工具结果——这些都可能携带指令(提示注入)。
- 它们调用工具——
shell.exec、db.query、一个支付 API——这些 会做不可逆的事情。 - 它们访问网络——抓取攻击者可以引导到内部服务或 外泄端点的 URL。
- 它们自我扩展——安装你从未审查过的技能、插件和 MCP 服务器。
2. 控制栈
OrcaRouter 对每个请求应用四个层。每个层都是独立的、 工作区限定的,并且无需修改代码就能附加到 API 密钥上。限定范围的密钥
最小权限身份。绑定到特定模型、IP、消费上限、
到期时间,以及适用的确切防护栏 + 防火墙策略。
防护栏
内容控制。筛查提示词和响应——block、mask 或 flag
PII、密钥、注入和不安全输出。
智能体防火墙
动作控制。允许列表工具、验证和净化工具调用参数、
挂起等待审批,以及封顶出站流量和成本。
审计
归因。每一次匹配、判定和审批都被记录并
关联到触发它的智能体运行。
3. 为何需要”零信任”
零信任意味着没有任何请求仅凭其来源就被信任。 一次工具调用是根据它是什么来判断的,而不是基于它是由 你自己的智能体发出的这一事实——因为智能体可能正在根据 它从不可信页面读取的注入指令行事。OrcaRouter 通过在 重要动作上默认拒绝,以及对你预期的动作使用明确允许列表 来执行这一原则。 为什么 AI 智能体需要零信任 深入涵盖了这一模型。4. 一切都在网关中
控制栈在你的工作区中配置,并在网关上执行,而不在 你的应用中:- 附加一次,随处生效。 将防护栏和防火墙策略绑定到 API 密钥;该密钥发出的每一次调用都会被筛查。编辑策略, 每个附加的密钥在下一次请求时就会发生变化。
- 无需重新部署,无需修改 SDK。 你的智能体继续发出相同的 OpenAI 格式调用。执行是不可见的,直到一条规则触发。
- 提供商无关。 相同的策略适用于 GPT、Claude、Gemini 和其他所有提供商——它筛查文本和动作,而不是模型选择。
配置在工作区内受角色门控。 读取策略和设置对任何成员开放;
防火墙 Events 和 Runs 信息流需要 Developer 角色;
创建或更改防护栏、防火墙策略和密钥需要 Developer;
合规性和网关密钥变更需要 Admin。在这些文档中,每个
配置步骤都注明了它所需的角色。
5. 快速路径:一个开关
你不必编写规则就能获得保护。自治级别一步设置你的整个 防火墙和防护栏姿态,支持一键撤销:| 级别 | 你得到什么 |
|---|---|
tight | 默认拒绝;拦截破坏性工具和 SSRF 出站;PII + 密钥防护栏开启。 |
balanced | 默认审计,拒绝破坏性 shell,flag PII。推荐的起始姿态。 |
permissive | 无执行,但一切都被观察,因此你仍然能看到智能体的行为。 |
6. 下一步去哪里
快速开始
在 5 分钟内开启零信任。
为什么零信任
设计背后的威胁模型。
防护栏 vs. 防火墙
哪个层捕获哪种威胁。
你的责任是什么
网关保护什么,什么仍然是你的责任。
