安全 FAQ - OrcaRouter

你已经读完一个控制页面，发布之前还剩一个问题。这就是 ai 智能体安全 faq ——那些贯穿整个零信任章节的横切问题，集中解答于一处，每一个都链接到供深入了解的参考。如果你对这个章节完全陌生，从保护 AI 智能体和控制栈开始；本页假设你已经知道有两个执行平面——防护栏（提示词/响应文本）和防火墙（智能体动作）——并且只需要把那些边角钉死。

1. ai 智能体安全 faq —— 从这里开始

一张 30 秒的地图，告诉你哪个控制回答哪个问题：

你在问的是…	平面	阅读
提示词或响应里的文本（PII、密钥、越狱）	防护栏	防护栏
工具调用、MCP、egress、技能	防火墙	防火墙
一个 `400` 上是哪个触发了	两者皆可	为什么被拦下了？

托管网关上的每一次安全拦截都是 HTTP 400，带一个机器可读的 code。先读这个错误码——它把你岔向正确的信息流。完整的表在错误码。

2. 防护栏 —— 内容筛查

如果一个请求上没有解析出任何防护栏会怎样？

什么也不会发生。解析是：密钥上的显式 guardrail_id（如果它存在且已启用）→ 否则工作区的 is_default 防护栏 → 否则不执行。一个被禁用 的显式附加就是那个关闭开关——它不会回退到默认值。当没有解析出任何东西时，该请求与一个从未启用该功能的工作区字节相同。

一个被拦截的请求会消耗我的配额吗？

不会。一个 block 动作返回 400 guardrail_blocked 且不消耗配额—— 一个输入阶段拦截在计量之前触发；一个输出阶段拦截退回预先扣除的配额。它也被标记为 skip-retry：重新运行那个完全相同的提示词只会再次被拦。

有哪些规则类型和动作？

规则类型：keyword、regex、pii、max_chars、external、 llm_judge、grounding。动作：block（拒绝）、mask（脱敏并转发）、 flag（仅记录，不改变流量）。阶段：input、output、both。各项参见防护栏。

检测哪些 PII 实体，以及一次脱敏是什么样子？

内置实体包括 email、phone、credit_card、ssn、ip、iban、 mac_address、jwt、aws_access_key、api_key_openai、 bitcoin_address，外加区域类型（jp_mynumber、kr_rrn、 cn_resident_id）。一个 mask 动作渲染一个类型化标签—— jane@acme.com → [EMAIL]，一个 SSN → [SSN]。你可以在每条规则上叠加最多 25 个自定义正则实体（附一个可选的 Luhn 校验和），并经由 entity_actions 逐实体覆盖动作。

输出脱敏在流式响应上会执行吗？

输出 block 两种方式都执行——非流式响应在返回前被筛查，而一个流式扫描器会中途切断流。输出 mask 目前仅限非流式；在一个流式响应上分块会未脱敏地通过（带内流改写在路线图上）。输入阶段脱敏——在模型看到请求之前对其消毒——无论如何都已上线。PII Shield 预设当下在输入阶段脱敏。

LLM judge 的代价是多少？

keyword / regex / pii / max_chars 规则不做模型调用，也不计费。一条 llm_judge 规则经由一个工作区模型运行一次语义检查（受 judge_timeout_ms 约束，默认 fail-open），并作为一个单独的 judge 子项计费。一条 grounding 规则以同样的方式对照请求检索到的来源为答案忠实度评分（阈值默认 0.7）。

我能看到一条规则实际匹配到了什么吗？

打开 Matches 信息流（GET /api/guardrail/match，Member）。每一行记录规则类型、动作、阶段和一个详情字符串——而匹配的子串仅当该防护栏开启了 “Log raw content” 时（默认关闭，隐私保守的姿态）。拦错了？把它标记为误报（POST /api/guardrail/match/:id/mark-fp，Admin）。

你们会扫描依赖里的已知 CVE 吗？

一个防护栏可以用一条代码安全公告（例如对一个被引用包的 CVE/SBOM 备注）装点一个提示词，而不拦截或脱敏文本。这是一个增补请求而非拒绝它的注释层——有别于你直接编写的 block / mask / flag 动作。在 Integrations 下连接一个扫描器来驱动它。

3. 防火墙 —— 智能体动作

在解析上防火墙与防护栏有何不同？

一个关键差异：一条被禁用的已附加防火墙策略会回退到工作区默认值，而一条被禁用的已附加防护栏解析为无（none）。除此之外，两者都经由密钥附加（firewall_policy_id / guardrail_id）并共享工作区默认值回退。参见防护栏 vs 防火墙。

判定和执行面有哪些？

判定：allow、audit、deny、sanitize、pending_approval、 cap_cost。default_verdict 是 allow / audit / deny（默认 audit）。执行面：inbound（被声明的工具）、response （模型发出的 tool_calls）、mcp（一次 tools/call）、egress （出站 host/IP/CIDR）。判定词汇表解码各项。

`sanitize` 会清理一个工具返回的内容吗？

不会——而这是常见的误解。一个 sanitize 判定只从工具调用参数中脱敏匹配的子串，绝不脱敏一个工具返回的内容。在 inbound 执行面上（此时还没有调用时参数），sanitize 会升级为一次拒绝。

自治级别做什么？

一个开关设置你的整体姿态，写入真实可编辑的 autonomy_* 行：
• balanced（推荐起点）—— 默认 audit，对破坏性 shell 执行 deny，PII Shield 处于仅审计（flag PII）。
• tight —— 默认拒绝，deny 破坏性 shell，deny SSRF 形态的 fetch 工具，PII Shield + Secrets Blocker 执行。
• permissive —— 仅观察。
一键撤销从应用所写的审计快照恢复到先前状态。它是单一步骤——一旦一次更晚的应用（或一次手动策略编辑）取代了那个快照，撤销就不可用。参见执行模式。

SSRF 预设会拦截私有 IP 和云元数据吗？

并非按预设。tight 自治 SSRF 预设拒绝的是常见的 fetch 形态工具名 （http_fetch、web_search、fetch_url、request）。要按目的地拒绝 ——RFC-1918 范围、云元数据 IP、特定 CIDR——编写你自己的 egress 执行面 host/CIDR 拒绝规则。没有任何预设为你提供 CIDR 规则。参见 Egress 与数据外泄。

我如何在不破坏流量的情况下上线一条策略？

打开影子模式（逐策略）：策略进行评估和记录，但把每个执行性判定降级为 audit，原因前缀 [shadow] would …。观察 Events 和 Runs 视图，然后关闭影子模式以执行。工作区级别的观察模式 （firewall_observe_mode）是互补的发现旋钮——它把未覆盖的调用记录为 Discovered Tools 里的缺口。

人工审批（HITL）如何工作？

一个 pending_approval 判定返回 400 firewall_approval_pending，带一个审批 id。一名审查者从控制台（Developer+）或经由一个 HMAC webhook 回调（POST /api/v1/firewall/approvals/:id/callback）解决它。智能体轮询 GET /api/v1/firewall/approvals/:id 并携带一次性的 X-OrcaRouter-Firewall-Approval 头重新提交原始调用。参见危险的工具调用。

异常检测在寻找什么？

对照一个学习到的周内小时基线（hour-of-week baseline）（14 天）评分的速率/成本尖峰，外加 retry_loop 和 novel_path（一次从未见过的工具到工具转移）。该信息流是 Member 可读的；可将一个异常贪睡最多 7 天。参见过度代理。

4. MCP、密钥与网关访问

MCP 服务器如何被治理？

注册一个服务器（name、endpoint、none/bearer/oauth/basic 之一的 auth_mode、加密的凭据），MCP 网关便在派发之前在 mcp 执行面上评估每一次 tools/call。健康被追踪（ok/degraded/down）；用 POST /api/workspace/firewall/mcp_servers/:id/probe 探测它。一次探测还会为该服务器声明的工具 schema 建立基线——之后的漂移会把它的 schema 状态从 verified 翻转为 changed（“rug-pull” 信号），而你要么重新建立基线（批准）要么 quarantine 该服务器。因此治理是逐调用评估外加 schema 完整性追踪和技能风险带。参见防火墙 MCP 和 MCP 工具投毒。

一个有风险或被自动检测的技能会怎样？

每个技能被扫描进一个风险带，带一个 allow / quarantine / block 的执行模式。一个被隔离的技能被挂起等待审批；被自动检测的技能保持隔离，直到一名人工审查它们。该模式骑在规则判定之上。

哪些密钥字段锁定一个智能体？

model_limits（+ model_limits_enabled）、allow_ips、 credit_limit_usd（0 = 无限制）、expired_time（-1 = 永不）、 environment、guardrail_id、firewall_policy_id，以及 is_firewall_gateway。组合它们以实现最小代理（least agency）——参见范围、密钥与策略。密钥在显示时被脱敏。

为什么我在 `/api/v1/firewall/*` 上得到 403？

那些网关路由（POST /evaluate、POST /evaluate_plan、ANY /mcp）需要一个带 is_firewall_gateway=true 的密钥——一个专用的 firewall-gateway-scoped 令牌，而非你的 sk-orca-… 中继密钥。铸造一个并读取它的明文是 Admin+。

配置与调用之间有什么区别？

配置运行在控制台里——防护栏、防火墙策略、MCP 服务器和合规在你的会话/访问令牌（UserAuth）下管理，且每一次写入都受角色门控（策略和防护栏写入需 Developer+）。只有你的 /v1/* 中继流量使用一个 sk-orca-… 密钥；只有 /api/v1/firewall/* 网关 hook 使用 firewall-gateway-scoped 令牌。

5. 合规、数据居住与数据

覆盖哪些框架？

为什么安装/报告受门控？

浏览是免费的；安装一个合规包、生成一份报告、上线，以及设置数据居住都需要工作区 Admin 和一个付费计划（服务端门控）。安装一个合规包（POST /api/compliance/packs/:key/install）物化出真实的防护栏 + 防火墙策略，你随后可以编辑它们。

合规报告可验证吗？

可以。一份报告是 Ed25519 签名 + SHA-256 且可公开验证：获取公钥（GET /api/public/compliance/pubkey）、验证一份报告（POST /api/public/compliance/verify），或给一名审计员一个分享链接（GET /api/public/compliance/share/:token）。导出格式为 CSV / JSON / PDF。

数据居住究竟钉定什么？

它是合规报告工件的区域（us、eu、uk、ap、cn、global），经由 PUT /api/compliance/residency（Admin）设置；一次跨区域读取会被扣留。它不是对你推理数据的地理钉定。参见共担责任。

日志保留多久，我如何让数据被擦除？

请求日志留存默认 30 天，并被服务端钳制到 180 天的硬上限。一次账号删除会被保留一个宽限窗口（默认 30 天），之后运行一次不可逆的 PII 清洗；那次清洗会级联清除归属于你的 Mongo 请求日志负载、防护栏匹配和防火墙事件。归档一个工作区会为该工作区级联清除同样的三个集合。参见 PII 暴露。

来自一个安全控制的 400 不是你提示词里的 bug。 它是一个策略在尽职。不要重试——这些错误码是 skip-retry。追踪规则，然后决定是修复调用还是放宽策略：为什么被拦下了？。

6. 仍然卡住？

错误码

网关能返回的每一种拦截、挂起和拒绝。

为什么被拦下了？

读错误码、打开正确的信息流、找到确切的规则。

防护栏 API

内容策略的路由、角色和负载。

防火墙 API

动作治理的控制台与网关路由。

合规 API

目录、安装、报告和数据居住端点。

词汇表

贯穿零信任文档使用的每一个术语。

关于这些控制所拦截的威胁，从威胁模型开始。要获得一个干净的基线，遵循安全智能体基线。

​1. ai 智能体安全 faq —— 从这里开始

​2. 防护栏 —— 内容筛查

​3. 防火墙 —— 智能体动作

​4. MCP、密钥与网关访问

​5. 合规、数据居住与数据

​6. 仍然卡住？

错误码

为什么被拦下了？

防护栏 API

防火墙 API

合规 API

词汇表

1. ai 智能体安全 faq —— 从这里开始

2. 防护栏 —— 内容筛查

3. 防火墙 —— 智能体动作

4. MCP、密钥与网关访问

5. 合规、数据居住与数据

6. 仍然卡住？