跳转到主要内容
这是从一个无防护的智能体到零信任姿态的最快路径。 你应用一个开关,像以前一样继续调用网关,观察你的智能体 实际做什么,然后收紧。无需编写规则,无需修改 SDK。
应用安全姿态会更改工作区设置,因此步骤 2 和步骤 5 需要 Developer 角色。防护栏 Matches 信息流(步骤 4)对任何 成员开放;防火墙 Events 信息流也需要 Developer

5 步开启

1

获取 API 密钥

如果你还没有,创建一个密钥——参见 获取 API 密钥。将此密钥 交给你想保护的智能体。以下所有内容都绑定到你的工作区, 因此相同的姿态覆盖其中的每个密钥。
2

应用安全智能体基线

在控制台中,打开 Firewall → Posture 并应用 balanced 自治级别Developer 角色)。在一个事务中,这同时设置你的防火墙和防护栏姿态: 工具调用被审计,PII 被 flag,同时最具破坏性的动作(如破坏性 shell)被拒绝——因此你在广泛执行之前先观察。这是一个支持 一键撤销的单一开关。(对于完全不拦截任何东西的通过, 从 permissive 开始。)
3

像以前一样发送请求

你的调用不需要任何改变。使用相同的密钥,相同的 OpenAI 格式:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
请求通过了。在 balanced 下它不会被拦截——它被观察。 邮件被 flag,你的智能体发出的任何工具调用都被记录。
4

查看你的智能体实际做了什么

两个信息流,都是工作区限定的:
  • Firewall → Events / Runs——你的智能体发出的每一次工具调用、 它的判定,以及它命中的执行面(它声明的工具、模型发出的调用、 MCP 派发或出站目的地)。
  • Guardrails → Matches——每一条触发的规则,比如被 flag 的 邮件,按防护栏和动作分组。
这是先观察的好处:你在任何规则可能破坏它之前就看到了 智能体的真实行为。
5

收紧以执行

一旦信息流看起来正确,在同一个 Firewall → Posture 页面上 将自治级别切换为 tightDeveloper 角色)。现在执行是实时的:PII 在模型看到之前被脱敏,密钥被阻止 进入你的请求,破坏性 shell 调用和 SSRF 出站被拒绝。被拒绝的 工具调用返回 HTTP 400 firewall_blocked;被拦截的提示词 返回 HTTP 400 guardrail_blocked——拦截不消耗你的任何配额。 无需应用变更——就是下一个请求就受到治理了。
零信任已开启:每一条提示词和响应都被筛查,每一次工具调用和 路由的出站请求都受到治理,每一个决策都被记录。

你刚刚开启了什么

balancedtight
防护栏(文本)PII 被 flag(仅审计)PII 被脱敏,密钥被拦截
防火墙(动作)被审计;破坏性 shell 被拒绝默认拒绝;破坏性 shell + SSRF 出站被拒绝
可见性完整——Events + Matches完整——Events + Matches

设置太严格了?

每次自治变更都是一个支持一键撤销的事务,因此你可以从防火墙 页面(或撤销 API)直接回滚到你的上一个姿态。你也可以随时 重新应用一个更宽松的级别(balancedpermissive)。

下一步

安全智能体基线

每个自治级别设置什么,以及如何在应用前模拟。

执行模式

观察 → 影子 → 执行,安全推出详解。

防护栏

在基线之外编写你自己的内容规则。

智能体防火墙

编写工具允许列表、参数检查和出站规则。