1. faq de segurança de agentes de ia — comece aqui
Um mapa de 30 segundos de qual controle responde qual pergunta:| Você está perguntando sobre… | O plano | Leia |
|---|---|---|
| Texto em prompts ou respostas (PII, segredos, jailbreaks) | Guardrails | Guardrails |
| Chamadas de ferramenta, MCP, egress, skills | Firewall | Firewall |
Qual deles disparou em um 400 | Qualquer um | Por que foi bloqueado? |
2. Guardrails — filtragem de conteúdo
O que acontece se nenhum guardrail resolver em uma requisição?
O que acontece se nenhum guardrail resolver em uma requisição?
guardrail_id explícito na chave (se existir e estiver
habilitado) → caso contrário o guardrail is_default do workspace → caso
contrário sem enforcement. Um vínculo explícito desabilitado é o
interruptor de desligar — ele não cai de volta para o padrão. Com nada
resolvido, a requisição é byte-idêntica à de um workspace que nunca habilitou
o recurso.Uma requisição bloqueada me custa cota?
Uma requisição bloqueada me custa cota?
block retorna 400 guardrail_blocked e não custa cota — um
bloqueio em estágio de entrada dispara antes da medição; um bloqueio em
estágio de saída reembolsa a cota pré-consumida. Também é marcado
skip-retry: reexecutar o prompt idêntico apenas bloqueia de novo.Quais tipos de regra e ações existem?
Quais tipos de regra e ações existem?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. Ações: block (rejeitar), mask (redigir e
encaminhar), flag (apenas registrar, sem mudança no tráfego). Estágios:
input, output, both. Veja Guardrails para
cada um.Quais entidades de PII são detectadas, e como é uma máscara?
Quais entidades de PII são detectadas, e como é uma máscara?
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, mais tipos regionais (jp_mynumber, kr_rrn,
cn_resident_id). Uma ação mask renderiza uma tag tipada —
jane@acme.com → [EMAIL], um SSN → [SSN]. Você pode adicionar até 25
entidades regex personalizadas por regra (com um checksum Luhn opcional) e
sobrescrever a ação por entidade via entity_actions.O mascaramento de saída é aplicado em respostas em streaming?
O mascaramento de saída é aplicado em respostas em streaming?
Quanto custa o juiz LLM?
Quanto custa o juiz LLM?
keyword / regex / pii / max_chars não fazem chamada de modelo e
não cobram nada. Uma regra llm_judge roda uma verificação semântica através
de um modelo do workspace (limitada por judge_timeout_ms, fail-open por
padrão) e é cobrada como uma sub-linha de juiz separada. Uma regra
grounding pontua a fidelidade da resposta contra as fontes recuperadas da
requisição (limiar padrão 0.7) da mesma forma.Posso ver o que uma regra realmente correspondeu?
Posso ver o que uma regra realmente correspondeu?
GET /api/guardrail/match, Member). Cada linha
registra tipo de regra, ação, estágio e uma string de detalhe — e a
substring correspondente apenas se “Log raw content” estiver ligado
para aquele guardrail (desligado por padrão, a postura conservadora de
privacidade). Bloqueio errado? Marque-o como falso positivo
(POST /api/guardrail/match/:id/mark-fp, Admin).Vocês escaneiam dependências em busca de CVEs conhecidos?
Vocês escaneiam dependências em busca de CVEs conhecidos?
block / mask / flag que você cria
diretamente. Conecte um scanner sob Integrações para acioná-la.3. Firewall — ações de agente
Como o firewall difere dos guardrails na resolução?
Como o firewall difere dos guardrails na resolução?
firewall_policy_id / guardrail_id) e compartilham o fallback para o
padrão do workspace. Veja
Guardrails vs Firewall.Quais são os vereditos e superfícies?
Quais são os vereditos e superfícies?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict é allow / audit / deny (audit por
padrão). Superfícies: inbound (ferramentas anunciadas), response
(tool_calls emitidos pelo modelo), mcp (um tools/call), egress
(host/IP/CIDR outbound). O
glossário de vereditos decodifica
cada um.O `sanitize` limpa o que uma ferramenta retorna?
O `sanitize` limpa o que uma ferramenta retorna?
sanitize redige substrings
correspondentes apenas dos argumentos da chamada de ferramenta, nunca o
conteúdo que uma ferramenta retorna. Na superfície inbound (ainda sem args
em tempo de chamada) sanitize escala para um deny.O que os níveis de autonomia fazem?
O que os níveis de autonomia fazem?
autonomy_* reais
e editáveis:•
balanced (início recomendado) — audit padrão, nega shell
destrutivo, PII Shield em apenas-audit (sinaliza PII).•
tight — default-deny, nega shell destrutivo, nega ferramentas de fetch
com formato de SSRF, PII Shield + Secrets Blocker aplicados.•
permissive — apenas observa.O undo em um clique restaura o estado anterior a partir do snapshot de auditoria que a aplicação escreveu. É um único passo — o undo fica indisponível assim que uma aplicação posterior (ou uma edição manual de política) supera aquele snapshot. Veja Modos de enforcement.
O preset de SSRF bloqueia IPs privados e metadados de nuvem?
O preset de SSRF bloqueia IPs privados e metadados de nuvem?
tight nega os
nomes de ferramenta comuns com formato de fetch (http_fetch,
web_search, fetch_url, request). Para negar por destino — faixas
RFC-1918, IPs de metadados de nuvem, CIDRs específicos — crie sua própria
regra de deny de host/CIDR na superfície egress. Nenhum preset traz regras
CIDR prontas para você. Veja
Egress & exfiltração de dados.Como faço o rollout de uma política sem quebrar o tráfego?
Como faço o rollout de uma política sem quebrar o tráfego?
audit, prefixando o motivo com
[shadow] would …. Observe as visões de Events e Runs, depois
desligue o shadow para aplicar. O observe mode em nível de workspace
(firewall_observe_mode) é o controle de descoberta complementar — ele
registra chamadas não cobertas como gaps em Discovered Tools.Como funciona a aprovação humana (HITL)?
Como funciona a aprovação humana (HITL)?
pending_approval retorna 400 firewall_approval_pending com um
id de aprovação. Um revisor a resolve a partir do console (Developer+) ou
via um callback de webhook HMAC
(POST /api/v1/firewall/approvals/:id/callback). O agente consulta
GET /api/v1/firewall/approvals/:id e reenvia a chamada original com um
header de uso único X-OrcaRouter-Firewall-Approval. Veja
Chamadas de ferramenta perigosas.O que a detecção de anomalias procura?
O que a detecção de anomalias procura?
retry_loop e novel_path (uma transição
ferramenta-para-ferramenta nunca vista antes). O feed é legível por Member;
dê snooze em uma anomalia por até 7 dias. Veja
Agência excessiva.4. MCP, chaves & acesso ao gateway
Como os servidores MCP são governados?
Como os servidores MCP são governados?
name, endpoint, auth_mode de
none/bearer/oauth/basic, credenciais criptografadas) e o gateway MCP
avalia cada tools/call na superfície mcp antes do dispatch. A saúde é
rastreada (ok/degraded/down); faça probe dela com
POST /api/workspace/firewall/mcp_servers/:id/probe. Um probe também faz
baseline do schema de ferramentas anunciado do servidor — drift posterior vira
seu schema status de verified para changed (o sinal de “rug-pull”), e você
ou faz re-baseline (aprova) ou coloca o servidor em quarantine. Então a
governança é avaliação por chamada mais rastreamento de integridade de
schema e bandas de risco de skill. Veja
Firewall MCP e
Envenenamento de ferramenta MCP.O que acontece com uma skill arriscada ou auto-detectada?
O que acontece com uma skill arriscada ou auto-detectada?
allow / quarantine / block. Uma
skill em quarentena é retida para aprovação; skills auto-detectadas permanecem
em quarentena até que um humano as revise. O modo anda por cima do veredito
da regra.Quais campos de chave trancam um agente?
Quais campos de chave trancam um agente?
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd
(0 = ilimitado), expired_time (-1 = nunca), environment,
guardrail_id, firewall_policy_id e is_firewall_gateway. Combine-os para
menor agência — veja
Escopo, chaves & políticas.
As chaves são mascaradas na exibição.Por que estou recebendo 403 em `/api/v1/firewall/*`?
Por que estou recebendo 403 em `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan, ANY /mcp)
exigem uma chave com is_firewall_gateway=true — um token dedicado com escopo
de firewall-gateway, não sua chave de relay sk-orca-…. Cunhar uma e ler seu
texto em claro é Admin+.Qual a diferença entre configurar e chamar?
Qual a diferença entre configurar e chamar?
/v1/* usa uma chave
sk-orca-…; apenas os hooks de gateway /api/v1/firewall/* usam o token com
escopo de firewall-gateway.5. Compliance, residência & dados
Quais frameworks são cobertos?
Quais frameworks são cobertos?
/api/compliance/*.Por que instalar/relatar é restrito?
Por que instalar/relatar é restrito?
POST /api/compliance/packs/:key/install) materializa guardrails + políticas
de firewall reais que você pode então editar.Os relatórios de compliance são verificáveis?
Os relatórios de compliance são verificáveis?
GET /api/public/compliance/pubkey),
verifique um relatório (POST /api/public/compliance/verify), ou entregue a
um auditor um link de compartilhamento
(GET /api/public/compliance/share/:token). Exports são CSV / JSON / PDF.O que a residência de dados realmente fixa?
O que a residência de dados realmente fixa?
us, eu, uk, ap,
cn, global), definível via PUT /api/compliance/residency (Admin); uma
leitura entre regiões é retida. Não é geo-pinning dos seus dados de
inferência. Veja
Responsabilidade compartilhada.Por quanto tempo os logs são mantidos, e como faço para apagar dados?
Por quanto tempo os logs são mantidos, e como faço para apagar dados?
