DROP numa tabela de ledger, números
de cartão vazando para um prompt — é medido em dólares e achados de auditoria.
Esta receita monta os controles que tornam tal agente seguro de rodar:
autonomia tight como o piso, aprovação humana nas ferramentas que movem
dinheiro, um limite de custo por run como o disjuntor e um pack de
compliance SOC 2 / PCI instalável que materializa a política e a evidência
assinada que um auditor vai pedir.
Tudo aqui é configurado no console (Firewall → Posture / Policies,
Guardrails, Compliance). Essas rotas de gerenciamento usam a sua sessão de
console, não uma chave de relay — apenas as chamadas
/v1/* que o seu agente
faz carregam uma chave sk-orca-…. Edições de política exigem o papel
Developer; install / go-live / residência de compliance exigem Admin do
workspace e um plano pago.1. Por que um agente de IA financeiro seguro precisa de mais que guardrails
A triagem de conteúdo captura um número de cartão num prompt. Ela não impede o agente de chamarrefund.issue dez mil vezes, alcançar um host interno
10.x ou rodar uma migração destrutiva. Uma postura de nível financeiro tem
que governar ambos os planos de uma vez:
O plano de texto
Os Guardrails filtram o texto de requisição e
resposta — PII mascarada, segredos bloqueados, antes que o modelo os veja.
O plano de ação
O Firewall governa cada chamada de ferramenta,
dispatch de MCP e requisição outbound — allow, audit, deny, sanitize, retém
ou limita o custo.
2. Piso: aplique autonomia tight
Comece pela postura de um interruptor mais forte. Em Firewall → Posture, aplique o nível de autonomiatight (papel Developer). Em uma única transação ele define ambos os
planos:
| Plano | O que tight materializa |
|---|---|
| Firewall | Default-deny; nega shell destrutivo; nega egress SSRF (nomes de ferramenta no formato de fetch) |
| Guardrails | PII Shield + Secrets Blocker aplicados nas requisições |
autonomy_* e de guardrail
reais e editáveis — é uma semente, não uma caixa-preta. Ele tem desfazer em
um clique a partir de um snapshot de auditoria.
3. Aprovações: retenha as ferramentas que movem dinheiro para um humano (HITL)
Default-deny para o que você não permitiu. As ferramentas que você de fato permite mas que movem dinheiro —refund.issue, payment.send,
ledger.adjust — não deveriam ser nem auto-permitidas nem auto-negadas. Dê a
elas o veredito pending_approval para que um humano aprove fora de banda.
Em Firewall → Policies, adicione uma regra acima do seu padrão:
- Tool glob:
refund.*(oupayment.send,ledger.adjust, …) - Veredito:
pending_approval
- A chamada retida retorna HTTP 400
firewall_approval_pendingcom um id de aprovação; a chamada não chega à ferramenta. - Um revisor a resolve — a partir do console (Developer+), ou via um
callback de webhook assinado por HMAC para o seu próprio sistema de
aprovação em
POST /api/v1/firewall/approvals/:id/callback. - O agente consulta
GET /api/v1/firewall/approvals/:id, depois reenvia a chamada original com um headerX-OrcaRouter-Firewall-Approvalde uso único — o gateway a deixa passar aquela única vez.
4. Disjuntor: limite o custo de uma run
Um agente financeiro preso num loop de retry é tanto um bug de correção quanto de billing. Uma regracap_cost é o disjuntor de loop descontrolado: ela nega
uma chamada de ferramenta assim que o gasto acumulado da run do agente cruza um
limite por regra em centavos.
Adicione uma regra com veredito cap_cost e um teto cap_cost_cents — ex.:
2000 (USD $20,00) — escopado às ferramentas do seu agente. Assim que o gasto
corrente de uma run excede o limite, as chamadas seguintes naquela run são
negadas; uma run nova começa limpa.
cap_cost limita o gasto da run do agente, não o orçamento vitalício de uma
única chave. Para um teto rígido em uma chave, defina credit_limit_usd na
própria chave de API (0 = ilimitado) — os dois se compõem: o orçamento da chave
limita o gasto total, cap_cost limita qualquer run individual.5. Reforço duplo no plano de texto
tight já aplica PII Shield e Secrets Blocker. Para um agente financeiro,
apoie-se nas especificidades:
Bloqueie números de cartão e segredos das requisições
Bloqueie números de cartão e segredos das requisições
O guardrail Secrets Blocker captura chaves de API e credenciais no prompt
antes que o modelo as veja. Para dados de cartão, uma regra
pii com
credit_card definido para a ação block (via entity_actions por
entidade) rejeita a requisição de imediato com HTTP 400 guardrail_blocked
— e um block custa nenhuma cota (blocks de input disparam antes da
medição). Veja Guardrails §5.Mascare PII na entrada
Mascare PII na entrada
O preset PII Shield é uma única regra
pii, mask, stage both. A
máscara no stage input está disponível: um iban ou ssn na requisição é
renderizado como [IBAN] / [SSN] antes do modelo ser chamado. (A máscara
ao vivo de output/streaming está no roadmap; o block de output é aplicado
em streaming e não-streaming hoje.)Sanitize args, nunca confie em resultados
Sanitize args, nunca confie em resultados
Um veredito de Firewall
sanitize redige substrings correspondentes dos
argumentos de uma chamada de ferramenta antes de encaminhar — ele nunca
reescreve o que uma ferramenta retorna. Para manter um segredo inteiramente
fora de uma requisição, essa é a tarefa do guardrail Secrets Blocker no plano
de texto.6. O pack de compliance: SOC 2 e PCI em um install
Os controles acima são a implementação. Um auditor quer a evidência. O plano de Compliance fecha esse ciclo: navegue pelo catálogo de frameworks (gratuito, qualquer Member), depois instale um pack como Admin do workspace em um plano pago. Instalar um pack materializa guardrails e políticas de firewall que mapeiam para os controles do framework — então o mesmo install que lhe dá o artefato de auditoria também levanta enforcement real.soc2 (AICPA
SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0), glba
(Gramm-Leach-Bliley) e dora_eu (Digital Operational Resilience Act) — ao
lado de frameworks de privacidade (gdpr, uk_gdpr, ccpa), frameworks de
segurança/IA (iso_27001, iso_42001, nist_ai_rmf, eu_ai_act,
nist_800_53) e o pack owasp_llm (OWASP Top 10 for LLM Applications).
Navegue pelo catálogo ao vivo para o conjunto completo.
O relatório que um auditor pode verificar
| O quê | Detalhe |
|---|---|
| Assinatura | Ed25519 sobre um hash de evidência SHA-256 — à prova de adulteração |
| Formatos | CSV / JSON / PDF |
| Verificar | Público — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify |
| Compartilhar | Um link de auditor somente leitura: GET /api/public/compliance/share/:token |
O plano gratuito inclui um relatório; export CSV/JSON e relatórios adicionais
são pagos. Gerar um relatório e ir ao ar são controlados pelo servidor para
planos pagos — o catálogo e as visões de prontidão permanecem gratuitos.
7. Residência de dados, retenção e apagamento
Uma postura de nível financeiro tem que responder “onde está a evidência, e por quanto tempo você mantém os logs.”- Residência é a região do artefato de relatório de compliance —
us,eu,uk,ap,cnouglobal, definida viaPUT /api/compliance/residency(Admin). Leituras cross-region são retidas. (Isso fixa o artefato, não onde a inferência roda.) - Retenção — os request logs têm padrão de 30 dias e são limitados pelo servidor a um máximo rígido de 180 dias.
- Apagamento — uma exclusão de conta self-service entra em uma janela de carência de 30 dias, depois uma limpeza irreversível de PII cascateia através de guardrail matches, request logs e firewall events.
8. Verifique antes de depender disso
Não lance uma política financeira na fé. Ambos os planos têm um sandbox que não persiste nada e não despacha nada:- Guardrails → Test — cole uma amostra, escolha um stage, veja o veredito e o texto renderizado (mascarado).
- Firewall → Test (Developer+) — faça um dry-run de uma chamada de ferramenta de amostra e veja o veredito, a regra correspondente e o motivo.
retry_loop e caminhos de
ferramenta nunca antes vistos — exatamente os sinais que precedem um incidente
financeiro.
Recapitulação
Linha de base de Agentes Seguros
O que
tight materializa, e como simular antes de aplicar.Regras de firewall
Predicados de argumento, limites de custo, egress e sequências em
profundidade.
Evidência SOC 2
Transforme os controles materializados em um artefato de auditoria assinado.
Logging seguro de PII
Mantenha dados de cartão e de conta fora dos seus request logs.
Modos de enforcement
Observe → shadow → enforce, o rollout seguro para ferramentas que movem
dinheiro.
Chamadas de ferramenta perigosas
A ameaça contra a qual a allow-list de ferramentas de um agente financeiro
defende.
