为什么 AI 智能体需要零信任

智能体不是一个由你完全主导的请求。它读取网页、处理文档，并根据这些来源告诉它的内容执行工具调用。任何这些来源都可能携带指令——而你的智能体，出于善意地对注入内容采取行动，成为了攻击者的代理。相信动作本身的价值，而不是它的来源。这就是 AI 智能体零信任的前提。本页解释威胁模型，并将每个原则映射到执行它的 OrcaRouter 控制。如需快速入门或实践配置，请参见底部的链接。

1. 为什么”我信任我自己的智能体”是错误的模型

传统的边界安全基于谁发出了请求来建立信任。一旦一个实体通过身份验证，它的行动就继承了这种信任。对于 AI 智能体，这立即失效：

你的智能体读取一个产品页面来回答用户问题。该页面包含 。智能体将其视为指令——而不是不可信的内容。
你的智能体处理一个检索到的文档，并用文档规定的参数调用 db.query。
你的智能体抓取一个由工具结果返回的 URL。该 URL 解析到一个内部服务。

在每种情况下，动作都是由你的智能体发出的——经过身份验证、合法、已授权。而在每种情况下，动作都不是你预期的。这就是混淆代理人问题：智能体拥有它并未为此任务赚取的环境权限，而攻击者通过控制智能体读取的内容来利用这种权限。基于身份的信任失效，因为智能体本身就是受信任的调用者。零信任意味着你验证动作，而不是智能体。

2. 为什么仅靠提示词级别的安全是不够的

一个只读取提示词和响应的内容过滤器对以下内容没有视图：

工具调用——什么函数名、什么参数、什么副作用。
出站流量——工具报告包含什么网络目的地。
自安装能力——智能体在运行时加载的 MCP 服务器和技能，这些你从未审查过。
成本——一个失控的循环在 90 秒内调用了一个昂贵的工具 800 次。

提示词安全是为聊天设计的：文本输入，文本输出，人类阅读。智能体打破了所有这些假设。保护它们需要一个能看到动作而不仅仅是文字的控制平面——一个坐落在每一次工具调用路径上的，无论哪个模型发出了它，或者能力是如何到达的。

3. 四项零信任原则，映射到 OrcaRouter

验证每个请求——而不是调用者

零信任拒绝安全边界的概念。每一次调用都根据其内容进行检查，无论哪个密钥或哪个智能体发出了它。OrcaRouter 将执行咽喉点放在网关——每一次调用要到达模型或工具必须穿越的唯一路径：

穿越网关的每一个请求、响应和工具调用——加上你的智能体通过它路由的每一个出站目的地——都会对照工作区的活跃策略进行评估。
没有”受信任智能体”豁免。由你的生产智能体发出的调用和由注入指令发出的调用对调用者来说看起来是相同的——网关会同时检查两者。
凭证存储加密。报告经 Ed25519 签名，可公开验证。

最小权限

智能体应该恰好拥有其任务所需的能力——不多。OrcaRouter 在两个层面执行这一原则： 限定范围的 API 密钥——每个密钥绑定到一组特定的模型、一个 IP 允许列表、一个消费上限、一个到期时间，以及适用的确切防护栏和防火墙策略。即使注入指令试图将智能体引导到其他地方，智能体的密钥也无法超出其范围。参见限定范围的密钥、策略和工作区。 工具允许列表——防火墙规则可以限制密钥的智能体被允许调用哪些工具。向只读研究智能体发出的密钥可以绑定到一个拒绝任何写入侧工具的策略——db.insert、fs.write、 shell.exec——在网关处，在工具运行之前。智能体的模型永远不会看到调用成功。

限定范围的密钥和防火墙策略由 Developer+ 角色创建和更改。读取策略对任何工作区成员开放。

在重要的事情上默认拒绝，在你预期的事情上明确允许

开放式的许可会变得陈旧。tight 自治级别将你的整个工作区设置为默认拒绝姿态——破坏性 shell 命令和 SSRF 出站被开箱即拒， Secrets Blocker 防护栏会从你的请求中筛选掉密钥。你明确开放你需要的动作，而不是明确拦截你不需要的动作。防火墙策略的 default_verdict 可以是 allow、audit 或 deny。新创建的策略默认为 audit——观察一切，不拦截任何东西 ——因此你可以在收紧之前看看你的智能体实际做什么。tight 自治级别在重要的执行面上将其设置为 deny。

自治级别	姿态
`tight`	默认拒绝；破坏性 shell 和 SSRF 出站被拒绝；PII Shield + Secrets Blocker 防护栏开启。
`balanced`	默认审计，拒绝破坏性 shell，flag PII。推荐的起始姿态。
`permissive`	无执行；观察模式开启，每个动作仍作为缺口被记录。

通过 POST /api/workspace/firewall/autonomy 应用自治级别（Developer+）。它原子性地设置防火墙和防护栏，支持一键撤销。

假设入侵——并随时准备证明

零信任假设某些调用会通过，某些指令会被注入，某些智能体会出错行为。控制栈的设计相应地考虑了这些： 审计追踪——每一次匹配、判定和审批都被记录到工作区的事件和匹配信息流中，并关联到触发它的智能体运行。你可以精确地重建你的智能体做了什么，按什么顺序，以及每次调用为什么被允许或拦截。 异常检测——防火墙学习每个工作区正常的工具使用形态，并标记偏差：对照 14 天滚动基线的速率和成本尖峰、重试循环，以及工作区从未进行过的工具到工具转移。参见防火墙。 人工审批（HITL）——pending_approval 判定在调用到达工具之前，将其挂起等待带外审查者。将它用于任何高风险、不可逆或新颖的动作。智能体等待；审查者批准或拒绝；决策被记录。无需修改代码。 异常检测和审批需要 Developer+ 才能处理；任何成员都可以读取异常信息流，而 Events 和 Runs 信息流需要 Developer+。

4. 有序的控制栈

OrcaRouter 按顺序将这四个层应用于每次调用：

层	它执行什么	如何映射到零信任原则
限定范围的密钥	身份和能力边界	最小权限
防护栏	提示词和响应中的内容	验证每个请求（文本层）
智能体防火墙	工具调用、出站流量、成本	验证每个请求（动作层）；默认拒绝
审计 + 异常	归因、偏差检测	假设入侵

没有任何层知道或信任其前一层的决策。防护栏筛查文本；防火墙治理动作——它们是互补的平面，而不是冗余的。参见防护栏 vs. 防火墙了解每个层捕获哪种具体威胁。

5. 这对你的集成意味着什么

你不必更改智能体代码就能获得零信任执行。你的智能体像以前一样继续调用 https://api.orcarouter.ai/v1。策略存在于网关中——在你的工作区中配置一次，附加一个密钥，该密钥发出的每一次调用都从下一个请求起受到治理。默认姿态（audit + 观察模式）是无破坏性的：它记录一切，不拦截任何东西，因此你可以在编写规则之前观察智能体真实的工具使用情况。从那里开始。

网关配置受角色门控。 读取策略和设置对任何工作区成员开放；防火墙 Events 和 Runs 信息流需要 Developer+。创建或更改防护栏、防火墙策略、密钥和自治级别需要 Developer+。合规报告和读取网关密钥明文需要 Admin。

控制栈

四个层如何在每个请求上组合——从密钥到审计的完整执行路径。

安全智能体基线

推荐的起始姿态——一个自治级别，观察真实流量，然后收紧。

快速开始

在 5 分钟内开启零信任。

​1. 为什么”我信任我自己的智能体”是错误的模型

​2. 为什么仅靠提示词级别的安全是不够的

​3. 四项零信任原则，映射到 OrcaRouter

​验证每个请求——而不是调用者

​最小权限

​在重要的事情上默认拒绝，在你预期的事情上明确允许

​假设入侵——并随时准备证明

​4. 有序的控制栈

​5. 这对你的集成意味着什么

控制栈

安全智能体基线

快速开始

1. 为什么”我信任我自己的智能体”是错误的模型

2. 为什么仅靠提示词级别的安全是不够的

3. 四项零信任原则，映射到 OrcaRouter

验证每个请求——而不是调用者

最小权限

在重要的事情上默认拒绝，在你预期的事情上明确允许

假设入侵——并随时准备证明

4. 有序的控制栈

5. 这对你的集成意味着什么