跳转到主要内容
AI 智能体不是聊天机器人。它读取不可信的网页、调用工具、 花费金钱、访问内部主机,并在运行时加载它发现的能力。 每一项都是具有真实世界后果的动作,而且大多数都在 没有人工介入的情况下发生。 OrcaRouter 坐落在你的智能体与它调用的每个模型之间, 因此它是唯一能看到每一个请求和响应的位置——以及 你的智能体通过它路由的每一次工具调用和出站目的地—— 无论哪个提供商来服务。这个咽喉点就是零信任执行所属之处。 你在工作区中配置一次;你的智能体像以前一样继续调用 https://api.orcarouter.ai/v1

1. 威胁:智能体行动,而不只是聊天

提示词级别的安全是为聊天而构建的。它假设模型生成 文本,人类阅读它。智能体打破了这一假设:
  • 它们摄取不可信内容——一个网页、一个检索到的文档、一个 工具结果——这些都可能携带指令(提示注入)。
  • 它们调用工具——shell.execdb.query、一个支付 API——这些 会做不可逆的事情。
  • 它们访问网络——抓取攻击者可以引导到内部服务或 外泄端点的 URL。
  • 它们自我扩展——安装你从未审查过的技能、插件和 MCP 服务器。
这些对于只读取提示词的内容过滤器来说都是不可见的。 保护智能体意味着控制身份、内容、动作和网络, 并保留所有这些的审计追踪

2. 控制栈

OrcaRouter 对每个请求应用四个层。每个层都是独立的、 工作区限定的,并且无需修改代码就能附加到 API 密钥上。

限定范围的密钥

最小权限身份。绑定到特定模型、IP、消费上限、 到期时间,以及适用的确切防护栏 + 防火墙策略。

防护栏

内容控制。筛查提示词和响应——block、mask 或 flag PII、密钥、注入和不安全输出。

智能体防火墙

动作控制。允许列表工具、验证和净化工具调用参数、 挂起等待审批,以及封顶出站流量和成本。

审计

归因。每一次匹配、判定和审批都被记录并 关联到触发它的智能体运行。
请求按顺序流经这些层:密钥决定调用是否被允许 以及哪些策略绑定;防护栏筛查输入文本;模型运行; 防火墙判断所有工具调用和出站目的地;防护栏筛查 输出;每一个决策都落入审计追踪。完整路径请参见 控制栈

3. 为何需要”零信任”

零信任意味着没有任何请求仅凭其来源就被信任。 一次工具调用是根据它是什么来判断的,而不是基于它是由 你自己的智能体发出的这一事实——因为智能体可能正在根据 它从不可信页面读取的注入指令行事。OrcaRouter 通过在 重要动作上默认拒绝,以及对你预期的动作使用明确允许列表 来执行这一原则。 为什么 AI 智能体需要零信任 深入涵盖了这一模型。

4. 一切都在网关中

控制栈在你的工作区中配置,并在网关上执行,而不在 你的应用中:
  • 附加一次,随处生效。 将防护栏和防火墙策略绑定到 API 密钥;该密钥发出的每一次调用都会被筛查。编辑策略, 每个附加的密钥在下一次请求时就会发生变化。
  • 无需重新部署,无需修改 SDK。 你的智能体继续发出相同的 OpenAI 格式调用。执行是不可见的,直到一条规则触发。
  • 提供商无关。 相同的策略适用于 GPT、Claude、Gemini 和其他所有提供商——它筛查文本和动作,而不是模型选择。
配置在工作区内受角色门控。 读取策略和设置对任何成员开放; 防火墙 EventsRuns 信息流需要 Developer 角色; 创建或更改防护栏、防火墙策略和密钥需要 Developer; 合规性和网关密钥变更需要 Admin。在这些文档中,每个 配置步骤都注明了它所需的角色。

5. 快速路径:一个开关

你不必编写规则就能获得保护。自治级别一步设置你的整个 防火墙防护栏姿态,支持一键撤销:
级别你得到什么
tight默认拒绝;拦截破坏性工具和 SSRF 出站;PII + 密钥防护栏开启。
balanced默认审计,拒绝破坏性 shell,flag PII。推荐的起始姿态。
permissive无执行,但一切都被观察,因此你仍然能看到智能体的行为。
这就是安全智能体基线 ——从那里开始,观察你的智能体实际做什么,然后收紧。

6. 下一步去哪里

快速开始

在 5 分钟内开启零信任。

为什么零信任

设计背后的威胁模型。

防护栏 vs. 防火墙

哪个层捕获哪种威胁。

你的责任是什么

网关保护什么,什么仍然是你的责任。