Saltar para o conteúdo principal

Glossário de segurança de agentes de IA

Um índice de referência rápida de cada termo usado na documentação de Zero Trust. Cada definição tem escopo no que você, como desenvolvedor no gateway hospedado, pode observar e configurar. Os termos vinculam às suas páginas principais para detalhes completos.

Identidade e escopo

TermoDefinição
WorkspaceO limite de tenant de nível superior. Todas as chaves, guardrails, políticas de firewall e eventos de auditoria pertencem a um workspace; nada cruza fronteiras de tenant. Veja Escopo, chaves e políticas.
Chave de API (chave com escopo)Um token de portador que seu agente apresenta em cada chamada. Carrega sua própria lista de permissão de modelos, restrições de IP, limite de gasto, expiração e a política exata de guardrail + firewall que se aplica a ela. Veja Escopo, chaves e políticas.
model_limitsO conjunto de modelos (ou globs de modelo) que uma chave tem permissão de chamar. Requisições para um modelo fora da lista são rejeitadas antes de qualquer chamada upstream.
allow_ipsUma lista de permissão de IP ou CIDR na chave. Requisições originadas de um endereço fora da lista são rejeitadas na autenticação.
credit_limit_usd (limite de gasto)Um teto de gasto fixo na chave, em USD. Uma vez que o uso acumulado da chave alcança o limite, requisições adicionais são rejeitadas. Útil para limitar loops descontrolados de agente.
Tag de ambienteUm rótulo de formato livre (ex.: production, staging) conectado a uma chave para organizá-la e identificá-la por ambiente de deployment.
is_firewall_gatewayUma flag que escopa uma chave para as rotas do gateway do Firewall (/api/v1/firewall/*) — os endpoints de dispatch MCP e hook de avaliação. Uma chave regular recebe 403 nessas rotas.
Menor agênciaO princípio de dar a um agente apenas os modelos, gasto, IPs e políticas de que realmente precisa — nada mais. Implementado combinando model_limits, allow_ips, credit_limit_usd e uma política de firewall restritiva na mesma chave. Veja Escopo, chaves e políticas.

Guardrails

TermoDefinição
GuardrailUma política de conteúdo nomeada e com escopo de workspace — uma lista ordenada de regras que o gateway executa contra a entrada da requisição e a saída do modelo. Conecte-o a uma chave (ou defina-o como padrão do workspace) uma vez; cada chamada vinculada é inspecionada sem redeploy.
RegraUma verificação dentro de um guardrail: um tipo (o que detectar), um estágio (onde procurar) e uma ação (o que fazer). As regras rodam em ordem.
Estágioinput (a requisição do chamador), output (a resposta do modelo) ou both. Uma regra dispara apenas no seu estágio declarado.
Açãoblock — rejeita a requisição inteira (HTTP 400); mask — redige a correspondência e deixa a chamada passar; flag — apenas registra, sem mudança de tráfego.
guardrail_blockedO código de erro retornado quando uma regra de guardrail dispara uma ação block. Retorna HTTP 400. A requisição não custa cota — bloqueios no estágio de entrada disparam antes da medição; bloqueios no estágio de saída reembolsam a cota pré-consumida.
PII ShieldUma regra do tipo pii que detecta tipos de entidade sensíveis embutidos (email, telefone, SSN, cartão de crédito, IP e mais) e os mascara com tags tipadas. (O tipo de regra pii também suporta block por entidade quando você cria a sua própria.) O ponto de partida canônico para prevenção de perda de dados. Segredos e credenciais são cobertos pelo preset separado Secrets Blocker.
Guardrail de injeção de promptUma regra de segurança que detecta tentativas de conteúdo não confiável (páginas web, resultados de ferramenta) de sequestrar as instruções do agente. Incluso como o preset Prompt-Injection Basics na categoria de template Safety.
Filtro de palavras sensíveisUma regra do tipo keyword que corresponde a uma lista de termos literais, sem distinção entre maiúsculas e minúsculas. A denylist mais simples.
LLM judgeUma regra do tipo llm_judge que executa uma verificação semântica (toxicidade, fora de tópico, intenção de jailbreak) contra um modelo no seu workspace. Use para políticas difusas que nenhum regex consegue capturar. Tokens cobrados como uma sub-linha de judge.
Contextual groundingUma regra do tipo grounding que pontua a resposta do modelo contra as fontes RAG na requisição e sinaliza ou bloqueia respostas que não são fiéis a elas.
Log raw contentUm toggle por guardrail — desativado por padrão (conservador em privacidade). Quando desativado, o feed de Matches registra que uma regra disparou mas não a substring correspondente. Ative por guardrail quando precisar da string real para triagem.
Feed de MatchesO registro em nível de workspace de cada regra que disparou: tipo de regra, ação, estágio, string de detalhe e (quando Log raw content está ativado) a substring correspondente. Filtrável por guardrail, tipo de regra e ação.

Agent Firewall

TermoDefinição
Política de FirewallUm conjunto ordenado de regras nomeado e com escopo de workspace que o gateway avalia em cada chamada de ferramenta. Conecte uma vez a uma chave ou defina como padrão do workspace; sem mudança de código do agente necessária.
VereditoO resultado que uma regra (ou o padrão) produz para uma chamada de ferramenta. Um entre allow, audit, deny, sanitize, pending_approval ou cap_cost.
Veredito padrãoO veredito aplicado quando nenhuma regra na política corresponde à chamada de ferramenta. Padrão audit — permite tudo e registra — até que você esteja pronto para aplicar enforcement.
Superfície de enforcementO ponto no ciclo de vida da requisição onde o firewall vê uma chamada: inbound (definições de ferramenta que o agente anuncia), response (chamadas de ferramenta que o modelo emite), mcp (um tools/call pelo gateway MCP) ou egress (um destino outbound reportado por uma ferramenta). Veja Firewall.
Lista de permissão de ferramentas (glob)Um tool_name_glob em uma regra — uma gramática pequena e sensível a maiúsculas e minúsculas (shell.*, *.exec, *) que corresponde a um nome de ferramenta ou família. Primeira correspondência vence contra a lista de regras ordenada.
Validação de argumentoCláusulas args_match em uma regra — operadores eq, contains, regex, in, cidr_match, gt, lt sobre campos JSONPath nos argumentos da ferramenta. A diferença entre “bloquear shell.exec” e “bloquear shell.exec apenas quando o comando é rm -rf.”
SanitizeUm veredito sanitize que redige substrings correspondentes (segredos, PII) dos argumentos da ferramenta e encaminha a chamada limpa, em vez de bloquear a ação inteira. Escala para um bloqueio na superfície inbound.
Controle de egressUma regra na superfície egress com uma lista de allow ou deny de host/CIDR — a principal defesa contra SSRF e exfiltração de dados. O nível de autonomia tight também nega as ferramentas com formato fetch (http_fetch, fetch_url, web_search, request).
cap_costUm veredito que nega chamadas de ferramenta assim que o gasto acumulado da run do agente (em centavos) excede um teto por regra. Um disjuntor para loops descontrolados de agente; criado como uma regra e resolve para allow ou deny em eventos com base no gasto acumulado.
Regra de sequênciaUma regra com um bloco sequence que corresponde a uma cadeia ordenada de múltiplos passos de chamadas de ferramenta dentro de uma janela de tempo (ex.: bulk-read → export → egress). Aplicada reativamente por um matcher assíncrono; aparece no feed de eventos.
firewall_blockedO código de erro em uma chamada de ferramenta negada. Retorna HTTP 400 no inbound; um erro de ferramenta no mcp. Marcado como skip-retry.
Aprovação / HITL (pending_approval)Um veredito pending_approval retém uma chamada de ferramenta para revisão humana. O agente recebe uma resposta “held” com um id de aprovação, um revisor aprova ou rejeita fora de banda, e o agente reenvia com um token de aprovação de uso único. O código de erro HTTP enquanto retido é firewall_approval_pending.
Detecção de anomaliasCamada estatística acima de regras estáticas. Pontua a atividade por ferramenta contra um baseline de hora-da-semana de 14 dias e sinaliza picos, loops de retry e caminhos de transição de ferramenta inéditos em um feed revisável.

Posturas

TermoDefinição
Observe modeUma configuração em nível de workspace. Quando ativado e nenhuma política está conectada a uma chave, chamadas de ferramenta são permitidas mas registradas como gaps de cobertura, populando a visão de Ferramentas Descobertas.
Shadow modeUma flag em uma política. A política avalia e registra exatamente como faria em produção, mas todo veredito de enforcement é rebaixado para audit (motivo prefixado com [shadow] would …). Interruptor de rollout seguro.
EnforceO estado padrão quando o shadow mode está desligado e uma política está conectada. Os vereditos entram em vigor — deny bloqueia, sanitize redige, pending_approval retém.
Nível de autonomiaUm único interruptor (tight / balanced / permissive) que atomicamente substitui a postura de Firewall e Guardrails do workspace em uma transação com desfazer em um clique. Veja Modos de enforcement e Linha de base de Agentes Seguros.

MCP e skills

TermoDefinição
Servidor MCPUm servidor Model Context Protocol registrado no seu workspace e exposto pelo gateway MCP do Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Cada tools/call que ele recebe é avaliado inline. Veja MCP do Firewall.
tools/callA mensagem do protocolo MCP que despacha uma ferramenta para um servidor MCP. O firewall a avalia na superfície mcp antes de encaminhar.
Rug-pullUm risco de cadeia de suprimentos onde um servidor MCP ou capacidade instalada muda ou expande suas definições de ferramenta após você ter concedido acesso. O OrcaRouter governa o raio de explosão: cada tools/call de MCP é avaliado pelo firewall na superfície mcp contra suas regras, e uma skill que pontua como arriscada é retida em quarantine até que um humano a revise.
SkillUm pacote de capacidade (uma ou mais ferramentas de um ou mais servidores MCP) que o gateway escaneia em busca de riscos no registro. Cada skill recebe uma banda de risco e um modo de enforcement (allow, quarantine, block) que se sobrepõe aos vereditos em nível de política.

Compliance e dados

TermoDefinição
Pacote de complianceUm pacote de guardrail + política de firewall pré-construído para um perfil regulatório (GDPR, PCI, HIPAA, dados financeiros). Aplique uma vez da biblioteca de templates; as regras são editáveis após a aplicação.
Relatório de compliance assinadoUm relatório de atestação em nível de workspace assinado com Ed25519. A assinatura é publicamente verificável — qualquer pessoa com a chave pública pode confirmar que o relatório não foi adulterado.
Residência de dadosA região registrada para sua evidência de compliance. Relatórios de compliance assinados são carimbados e armazenados por região (us, eu, uk, ap, cn, global), e um relatório só é servido sob uma região declarada correspondente. Defina nas configurações de compliance.
Direito ao apagamentoEm uma exclusão de workspace ou solicitação explícita de apagamento, o OrcaRouter concede um período de carência de 30 dias e depois purga PII de logs e registros de auditoria para esse workspace.
Evento de auditoriaUm registro imutável escrito após cada criação, atualização, exclusão e decisão de enforcement — mudanças de política, edições de regra, resoluções de aprovação, saves de guardrail. Valores de segredo e blobs de regra nunca são escritos no log de auditoria.

Ameaças (em uma linha)

AmeaçaO que é
Injeção de promptUm atacante embute instruções em conteúdo que o agente ingere (direta: na mensagem do usuário; indireta: em uma página web, documento ou resultado de ferramenta) para sequestrar o comportamento do agente.
JailbreakUm prompt elaborado que tenta bypassar o treinamento de segurança de um modelo, tipicamente enquadrando a requisição como roleplay, hipotético ou uma substituição de sistema.
Agência excessiva / confused deputyUm agente com permissões mais amplas do que sua tarefa exige, tornando-o trivialmente explorável por instruções injetadas — a mitigação principal é a menor agência.
Exfiltração de dadosUm agente (ou instrução injetada) direcionando chamadas de ferramenta ou requisições outbound para vazar dados sensíveis para um endpoint controlado pelo atacante. Mitigado por regras de controle de egress.
Denial-of-walletUm agente descontrolado ou acionado adversarialmente que gera gasto ilimitado de modelo upstream. Mitigado por credit_limit_usd na chave e regras cap_cost na política de firewall.

Para o quadro completo de como esses controles se compõem, veja Segurança de agentes de IA com OrcaRouter.