快速开始：5 分钟开启零信任

这是从一个无防护的智能体到零信任姿态的最快路径。你应用一个开关，像以前一样继续调用网关，观察你的智能体实际做什么，然后收紧。无需编写规则，无需修改 SDK。

应用安全姿态会更改工作区设置，因此步骤 2 和步骤 5 需要 Developer 角色。防护栏 Matches 信息流（步骤 4）对任何成员开放；防火墙 Events 信息流也需要 Developer。

5 步开启

获取 API 密钥

如果你还没有，创建一个密钥——参见获取 API 密钥。将此密钥交给你想保护的智能体。以下所有内容都绑定到你的工作区，因此相同的姿态覆盖其中的每个密钥。

应用安全智能体基线

在控制台中，打开 Firewall → Posture 并应用 balanced 自治级别（Developer 角色）。在一个事务中，这同时设置你的防火墙和防护栏姿态：工具调用被审计，PII 被 flag，同时最具破坏性的动作（如破坏性 shell）被拒绝——因此你在广泛执行之前先观察。这是一个支持一键撤销的单一开关。（对于完全不拦截任何东西的通过，从 permissive 开始。）

像以前一样发送请求

你的调用不需要任何改变。使用相同的密钥，相同的 OpenAI 格式：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'

请求通过了。在 balanced 下它不会被拦截——它被观察。邮件被 flag，你的智能体发出的任何工具调用都被记录。

查看你的智能体实际做了什么

两个信息流，都是工作区限定的：

Firewall → Events / Runs——你的智能体发出的每一次工具调用、它的判定，以及它命中的执行面（它声明的工具、模型发出的调用、 MCP 派发或出站目的地）。
Guardrails → Matches——每一条触发的规则，比如被 flag 的邮件，按防护栏和动作分组。

这是先观察的好处：你在任何规则可能破坏它之前就看到了智能体的真实行为。

收紧以执行

一旦信息流看起来正确，在同一个 Firewall → Posture 页面上将自治级别切换为 tight（Developer 角色）。现在执行是实时的：PII 在模型看到之前被脱敏，密钥被阻止进入你的请求，破坏性 shell 调用和 SSRF 出站被拒绝。被拒绝的工具调用返回 HTTP 400 firewall_blocked；被拦截的提示词返回 HTTP 400 guardrail_blocked——拦截不消耗你的任何配额。 无需应用变更——就是下一个请求就受到治理了。

零信任已开启：每一条提示词和响应都被筛查，每一次工具调用和路由的出站请求都受到治理，每一个决策都被记录。

你刚刚开启了什么

层	在 `balanced` 下	在 `tight` 下
防护栏（文本）	PII 被 flag（仅审计）	PII 被脱敏，密钥被拦截
防火墙（动作）	被审计；破坏性 shell 被拒绝	默认拒绝；破坏性 shell + SSRF 出站被拒绝
可见性	完整——Events + Matches	完整——Events + Matches

设置太严格了？

每次自治变更都是一个支持一键撤销的事务，因此你可以从防火墙页面（或撤销 API）直接回滚到你的上一个姿态。你也可以随时重新应用一个更宽松的级别（balanced 或 permissive）。

下一步

安全智能体基线

每个自治级别设置什么，以及如何在应用前模拟。

执行模式

观察 → 影子 → 执行，安全推出详解。

防护栏

在基线之外编写你自己的内容规则。

智能体防火墙

编写工具允许列表、参数检查和出站规则。

安全智能体基线共同责任

​5 步开启

​你刚刚开启了什么

​设置太严格了？

​下一步

安全智能体基线

执行模式

防护栏

智能体防火墙

5 步开启

你刚刚开启了什么

设置太严格了？

下一步