跳转到主要内容

AI 智能体安全词汇表

零信任文档中每个术语的快速参考索引。 每个定义都限定在你作为托管网关上的开发者可以观察和配置的范围内。 术语链接到其主页以获取完整详情。

身份与范围

术语定义
工作区顶级租户边界。所有密钥、防护栏、防火墙策略和审计事件都属于一个工作区;没有任何东西跨越租户边界。参见范围、密钥与策略
API 密钥(限定范围的密钥)你的智能体在每次调用时呈现的持有者令牌。携带自己的模型允许列表、IP 限制、消费上限、到期时间,以及适用于它的确切防护栏 + 防火墙策略。参见范围、密钥与策略
model_limits密钥被允许调用的模型集合(或模型 glob)。对列表之外模型的请求在任何上游调用之前被拒绝。
allow_ips密钥上的 IP 或 CIDR 允许列表。来自列表之外地址的请求在认证时被拒绝。
credit_limit_usd(消费上限)密钥上以 USD 计的硬性消费上限。一旦密钥的累积使用量达到上限,进一步的请求就会被拒绝。对于限制失控的智能体循环很有用。
环境标签附加到密钥的自由格式标签(例如 productionstaging),用于按部署环境组织和识别密钥。
is_firewall_gateway一个为防火墙网关路由(/api/v1/firewall/*)——MCP 派发和 evaluate hook 端点——限定密钥范围的标志。普通密钥在那些路由上得到 403
最小权限只给智能体它实际需要的模型、消费、IP 和策略的原则——不多。通过在同一密钥上组合 model_limitsallow_ipscredit_limit_usd 和限制性防火墙策略来实现。参见范围、密钥与策略

防护栏

术语定义
防护栏一个命名的、工作区限定的内容策略——一个有序的规则列表,网关对请求输入和模型输出运行它。将其附加到密钥(或将其设为工作区默认)一次;每个绑定的调用都被筛查,无需重新部署。
规则防护栏内的一个检查:一个类型(检测什么)、一个阶段(在哪里查找)和一个动作(做什么)。规则按顺序运行。
阶段input(调用者的请求)、output(模型的响应)或 both。规则只在其声明的阶段触发。
动作block——拒绝整个请求(HTTP 400);mask——脱敏匹配项并让调用通过;flag——仅记录,不改变流量。
guardrail_blocked当防护栏规则触发 block 动作时返回的错误码。返回 HTTP 400。请求不消耗配额——输入阶段拦截在计量之前触发;输出阶段拦截退回预先扣除的配额。
PII Shield一个 pii 类型规则,检测内置的敏感实体类型(邮件、电话、SSN、信用卡、IP 等),并用类型化标签脱敏它们。(pii 规则类型在你自己编写时也支持每个实体的 block。)数据丢失预防的标准起点。密钥和凭证由单独的 Secrets Blocker 预设覆盖。
提示注入防护栏一个检测不可信内容(网页、工具结果)试图劫持智能体指令的安全规则。在 Safety 模板类别中以 Prompt-Injection Basics 预设提供。
敏感词过滤器一个 keyword 类型规则,不区分大小写地匹配字面词项列表。最简单的拒绝列表。
LLM judge一个 llm_judge 类型规则,对你工作区中的某个模型运行语义检查(毒性、跑题、越狱意图)。用于任何正则都无法捕获的模糊策略。令牌作为 judge 子项计费。
上下文 grounding一个 grounding 类型规则,根据请求上的 RAG 来源对模型的答案进行评分,并 flag 或拦截不忠实于这些来源的答案。
Log raw content每个防护栏的切换——默认关闭(隐私保守)。关闭时,Matches 信息流记录规则触发了但不记录匹配的子串。在你需要实际字符串进行分诊时,按防护栏开启它。
Matches 信息流每一条触发规则的工作区范围记录:规则类型、动作、阶段、详情字符串,以及(当 Log raw content 开启时)匹配的子串。可按防护栏、规则类型和动作过滤。

智能体防火墙

术语定义
防火墙策略一个命名的、工作区限定的有序规则集,网关对每一次工具调用进行评估。将其一次附加到密钥或设为工作区默认;无需修改智能体代码。
判定规则(或默认值)为工具调用产生的结果。allowauditdenysanitizepending_approvalcap_cost 之一。
默认判定当策略中没有规则匹配工具调用时应用的判定。默认为 audit——允许一切并记录它——直到你准备好执行。
执行面防火墙在请求生命周期中看到调用的点:inbound(智能体声明的工具定义)、response(模型发出的工具调用)、mcp(通过 MCP 网关的 tools/call)或 egress(工具报告的出站目的地)。参见防火墙
工具允许列表(glob)规则上的 tool_name_glob——一个小的区分大小写的语法(shell.**.exec*),匹配工具名或工具族。对有序规则列表首个匹配生效。
参数验证规则上的 args_match 子句——eqcontainsregexincidr_matchgtlt 操作符,作用于工具参数中的 JSONPath 字段。“拦截 shell.exec”和”仅当命令是 rm -rf 时拦截 shell.exec”之间的区别。
Sanitize一个从工具参数中脱敏匹配子串(密钥、PII)并转发净化后调用的 sanitize 判定,而不是拦截整个动作。在 inbound 执行面上升级为拦截。
出站控制一个带有 host/CIDR 允许或拒绝列表的 egress 执行面规则——防御 SSRF 和数据外泄的主要手段。tight 自治级别也拒绝常见的 fetch 形工具(http_fetchfetch_urlweb_searchrequest)。
cap_cost一旦智能体运行的累积消费(以分计)超过每条规则上限,就拒绝工具调用的判定。失控智能体循环的断路器;作为规则编写,根据累积消费在事件中解析为 allow 或 deny。
序列规则sequence 块的规则,在时间窗口内匹配工具调用的有序多步链(例如批量读取 → 导出 → 出站)。由异步匹配器反应式执行;出现在事件信息流中。
firewall_blocked被拒绝工具调用的错误码。在 inbound 上返回 HTTP 400;在 mcp 上为工具错误。标记为 skip-retry。
审批/HITLpending_approvalpending_approval 判定将工具调用挂起等待人工审查。智能体收到带审批 id 的挂起响应,审查者带外批准或拒绝,智能体使用一次性审批令牌重新提交。挂起时的 HTTP 错误码为 firewall_approval_pending
异常检测静态规则之上的统计层。对照 14 天每小时基线对每个工具的活动评分,并在可审查的信息流上 flag 尖峰、重试循环和新颖的工具转移路径。

姿态

术语定义
观察模式工作区级别设置。当开启且没有策略附加到密钥时,工具调用被允许但作为覆盖缺口记录,填充 Discovered-tools 视图。
影子模式策略上的标志。策略完全像在生产中一样评估和记录,但每个执行性判定都被降级为 audit(原因前缀为 [shadow] would …)。安全上线开关。
执行影子模式关闭且策略附加时的默认状态。判定生效——deny 拦截,sanitize 脱敏,pending_approval 挂起。
自治级别一个单一开关(tight / balanced / permissive),在一个支持一键撤销的事务中原子性地替换工作区的防火墙和防护栏姿态。参见执行模式安全智能体基线

MCP 与技能

术语定义
MCP 服务器在你的工作区中注册并通过防火墙 MCP 网关(api.orcarouter.ai/api/v1/firewall/mcp)暴露的 Model Context Protocol 服务器。它接收的每一次 tools/call 都会内联评估。参见防火墙 MCP
tools/call将工具派发到 MCP 服务器的 MCP 协议消息。防火墙在转发之前在 mcp 执行面上评估它。
Rug-pullMCP 服务器或安装的能力在你授予访问权限后更改或扩展其工具定义的供应链风险。OrcaRouter 治理爆炸半径:每次 MCP tools/call 都在 mcp 执行面上对照你的规则进行防火墙评估,扫描结果危险的技能会被置于 quarantine 中,直到人工审查为止。
技能网关在注册时扫描风险的能力包(来自一个或多个 MCP 服务器的一个或多个工具)。每个技能获得一个风险带和一个执行模式(allowquarantineblock),叠加在策略级别判定之上。

合规与数据

术语定义
合规包针对监管配置文件(GDPR、PCI、HIPAA、金融数据)的预构建防护栏 + 防火墙策略包。从模板库一次应用;规则在应用后可编辑。
签名合规报告用 Ed25519 签名的工作区级别认证报告。签名可公开验证——任何拥有公钥的人都可以确认报告未被篡改。
数据居住为你的合规证据记录的区域。签名合规报告按区域(useuukapcnglobal)标记和存储,报告只在匹配的声明区域下提供。在合规设置中设置。
被遗忘权在工作区删除或明确的擦除请求时,OrcaRouter 给予 30 天宽限期,然后清洗该工作区的日志和审计记录中的 PII。
审计事件在每次创建、更新、删除和执行决策后写入的不可变记录——策略变更、规则编辑、审批解决、防护栏保存。密钥值和规则 blob 永不被写入审计日志。

威胁(一句话)

威胁它是什么
提示注入攻击者在智能体摄取的内容中嵌入指令(直接:在用户消息中;间接:在网页、文档或工具结果中)以劫持智能体的行为。
越狱一个精心制作的提示词,试图绕过模型的安全训练,通常通过将请求框定为角色扮演、假设或系统覆盖。
过度代理/混淆代理人被授予比其任务需要更多权限的智能体,使其很容易被注入指令利用——关键缓解措施是最小权限
数据外泄智能体(或注入的指令)将工具调用或出站请求引导到将敏感数据泄露到攻击者控制的端点。由出站控制规则缓解。
钱包拒绝服务一个失控或被对抗性触发的智能体产生无限制的上游模型消费。由密钥上的 credit_limit_usd 和防火墙策略中的 cap_cost 规则缓解。

如需这些控制如何组合的完整图景,参见使用 OrcaRouter 保护 AI 智能体