使用 OrcaRouter 保护 AI 智能体

AI 智能体不是聊天机器人。它读取不可信的网页、调用工具、花费金钱、访问内部主机，并在运行时加载它发现的能力。每一项都是具有真实世界后果的动作，而且大多数都在没有人工介入的情况下发生。 OrcaRouter 坐落在你的智能体与它调用的每个模型之间，因此它是唯一能看到每一个请求和响应的位置——以及你的智能体通过它路由的每一次工具调用和出站目的地—— 无论哪个提供商来服务。这个咽喉点就是零信任执行所属之处。你在工作区中配置一次；你的智能体像以前一样继续调用 https://api.orcarouter.ai/v1。

1. 威胁：智能体行动，而不只是聊天

提示词级别的安全是为聊天而构建的。它假设模型生成文本，人类阅读它。智能体打破了这一假设：

它们摄取不可信内容——一个网页、一个检索到的文档、一个工具结果——这些都可能携带指令（提示注入）。
它们调用工具——shell.exec、db.query、一个支付 API——这些会做不可逆的事情。
它们访问网络——抓取攻击者可以引导到内部服务或外泄端点的 URL。
它们自我扩展——安装你从未审查过的技能、插件和 MCP 服务器。

这些对于只读取提示词的内容过滤器来说都是不可见的。保护智能体意味着控制身份、内容、动作和网络，并保留所有这些的审计追踪。

2. 控制栈

OrcaRouter 对每个请求应用四个层。每个层都是独立的、工作区限定的，并且无需修改代码就能附加到 API 密钥上。

限定范围的密钥

最小权限身份。绑定到特定模型、IP、消费上限、到期时间，以及适用的确切防护栏 + 防火墙策略。

防护栏

内容控制。筛查提示词和响应——block、mask 或 flag PII、密钥、注入和不安全输出。

智能体防火墙

动作控制。允许列表工具、验证和净化工具调用参数、挂起等待审批，以及封顶出站流量和成本。

审计

归因。每一次匹配、判定和审批都被记录并关联到触发它的智能体运行。

请求按顺序流经这些层：密钥决定调用是否被允许以及哪些策略绑定；防护栏筛查输入文本；模型运行； 防火墙判断所有工具调用和出站目的地；防护栏筛查输出；每一个决策都落入审计追踪。完整路径请参见控制栈。

3. 为何需要”零信任”

零信任意味着没有任何请求仅凭其来源就被信任。一次工具调用是根据它是什么来判断的，而不是基于它是由你自己的智能体发出的这一事实——因为智能体可能正在根据它从不可信页面读取的注入指令行事。OrcaRouter 通过在重要动作上默认拒绝，以及对你预期的动作使用明确允许列表来执行这一原则。为什么 AI 智能体需要零信任深入涵盖了这一模型。

4. 一切都在网关中

控制栈在你的工作区中配置，并在网关上执行，而不在你的应用中：

附加一次，随处生效。 将防护栏和防火墙策略绑定到 API 密钥；该密钥发出的每一次调用都会被筛查。编辑策略，每个附加的密钥在下一次请求时就会发生变化。
无需重新部署，无需修改 SDK。 你的智能体继续发出相同的 OpenAI 格式调用。执行是不可见的，直到一条规则触发。
提供商无关。 相同的策略适用于 GPT、Claude、Gemini 和其他所有提供商——它筛查文本和动作，而不是模型选择。

配置在工作区内受角色门控。 读取策略和设置对任何成员开放；防火墙 Events 和 Runs 信息流需要 Developer 角色；创建或更改防护栏、防火墙策略和密钥需要 Developer；合规性和网关密钥变更需要 Admin。在这些文档中，每个配置步骤都注明了它所需的角色。

5. 快速路径：一个开关

你不必编写规则就能获得保护。自治级别一步设置你的整个防火墙和防护栏姿态，支持一键撤销：

级别	你得到什么
`tight`	默认拒绝；拦截破坏性工具和 SSRF 出站；PII + 密钥防护栏开启。
`balanced`	默认审计，拒绝破坏性 shell，flag PII。推荐的起始姿态。
`permissive`	无执行，但一切都被观察，因此你仍然能看到智能体的行为。

这就是安全智能体基线 ——从那里开始，观察你的智能体实际做什么，然后收紧。

6. 下一步去哪里

快速开始

在 5 分钟内开启零信任。

为什么零信任

设计背后的威胁模型。

防护栏 vs. 防火墙

哪个层捕获哪种威胁。

你的责任是什么

网关保护什么，什么仍然是你的责任。

为什么零信任

​1. 威胁：智能体行动，而不只是聊天

​2. 控制栈

限定范围的密钥

防护栏

智能体防火墙

审计

​3. 为何需要”零信任”

​4. 一切都在网关中

​5. 快速路径：一个开关

​6. 下一步去哪里

快速开始

为什么零信任

防护栏 vs. 防火墙

你的责任是什么

1. 威胁：智能体行动，而不只是聊天

2. 控制栈

3. 为何需要”零信任”

4. 一切都在网关中

5. 快速路径：一个开关

6. 下一步去哪里