Tudo aqui tem escopo de workspace. Membros veem a trilha do seu workspace;
nada cruza fronteiras de tenant. A trilha é produzida por features que você já
configura — Guardrails e o
Firewall — então ligar o enforcement liga o forense
ao mesmo tempo.
1. Os quatro registros por trás de uma trilha de auditoria de agente de ia
A atribuição vem de quatro fluxos independentes, cada um correlacionado à mesma run e sessão para que você possa pivotar entre eles:Matches de Guardrail
Cada regra de conteúdo que disparou em uma requisição ou resposta — tipo de
regra, ação, stage e uma string de detalhe. Legível por Member.
Events & Runs de Firewall
Cada veredito de chamada de ferramenta —
allow, audit, deny,
sanitize, pending_approval (reter-para-aprovação) e o veredito
resolvido de uma regra cap_cost — agregado por run e sessão de agente.
Developer+.Decisões de aprovação
Quem aprovou ou rejeitou cada chamada de ferramenta retida, registrado como
uma ação de auditoria.
Histórico de mudanças de política
Cada edição de guardrail e firewall — versionada, diffável, revertível —
mais uma linha de auditoria de workspace por mudança.
2. Matches de Guardrail — o que foi filtrado (Member)
Cada vez que uma regra de guardrail dispara, o gateway escreve uma match. O feed vive na página de Guardrails (aba Matches) e é legível por qualquer membro do workspace. Cada match registra o tipo de regra, a ação tomada (block / mask /
flag / annotate / spotlight), o stage (input / output), uma
string de detalhe e a linhagem de run da requisição que a disparou.
Liste-a, agrupe-a por guardrail ou tipo de regra, filtre por ação, mergulhe em
uma única match ou exporte o feed para CSV.
Uma regra barulhenta faz parte da trilha também. Marque uma match como falso
positivo com POST /api/guardrail/match/:id/mark-fp (Admin) para que seu sinal
permaneça limpo e seus relatórios não contem em excesso.
3. Events & Runs de Firewall — o que o agente fez (Developer+)
Onde Matches cobrem texto, os Events de firewall cobrem ações. Cada avaliação de chamada de ferramenta é registrada com seu veredito, superfície, nome de ferramenta e — criticamente — a run e sessão de agente à qual pertence. Leituras em Events, no rollup de Runs/sessões e no trace por-run exigem Developer+; os feeds mais leves de Discovered-tools e de anomalias estão abertos a qualquer Member. A view Runs & sessions é o cavalo de batalha forense: ela agrega events por run de agente em um breakdown de veredito, as ferramentas e modelos distintos que a run tocou e timestamps de primeira/última-vez-vistas — a resposta “o que este agente realmente fez” em uma única tela. Além dos vereditos estáticos, o feed de anomalias sinaliza desvios da baseline por hora-da-semana aprendida de cada workspace (uma média móvel de 14 dias) — picos de taxa e custo,retry_loop e transições novel_path — de
modo que um padrão permitido-mas-anormal ainda aparece no registro.
4. Decisões de aprovação — quem disse sim (ação de auditoria)
Quando uma regra resolve parapending_approval, a chamada retida se torna uma
revisão out-of-band (veja o fluxo HITL
do Firewall). A decisão faz parte da trilha: aprovar ou rejeitar escreve
uma linha de auditoria de workspace — firewall_approval_approve ou
firewall_approval_reject — nomeando o ator. As decisões são
first-writer-wins e idempotentes, e se a regra subjacente mudou após a
retenção, o enriquecimento nota que o contexto mudou.
Então uma chamada de ferramenta retida-e-depois-aprovada é totalmente
atribuível de ponta a ponta: o event de firewall mostra a retenção, a linha de
auditoria mostra quem a liberou, e ambos correlacionam à mesma run.
5. Auditoria de mudança de política — quem mudou as regras
Uma trilha de comportamento de agente só é confiável se você também pode provar qual era a política na época — e quem a mudou. Guardrails mantêm um histórico de versões completo. Cada create, update e delete escreve uma linha de histórico versionada na mesma transação da mudança. Abra History em um guardrail para ver cada versão com autor e timestamp, fazer diff de quaisquer duas e reverter para uma mais antiga (reverter é registrado como uma nova versão — o histórico nunca é mutado). Mudanças de política, regra e configurações do Firewall escrevem cada uma uma linha de auditoria de workspace depois que a mudança é commitada —firewall_policy_update, firewall_rule_create, firewall_settings_update, e
assim por diante — e mudanças de nível de autonomia (firewall_autonomy_applied
/ firewall_autonomy_undone) capturam o snapshot do estado-anterior que
alimenta o desfazer em um clique. Segredos e blobs de regra nunca são
registrados.
6. Um exemplo trabalhado: rastreie uma run suspeita
Suponha que uma run é sinalizada por uma chamada outbound inesperada. Do console, com uma sessão Developer+:Abra a run em Firewall → Runs
Encontre a run pelo seu id. O rollup mostra cada ferramenta que ela chamou
e o veredito em cada uma — incluindo o
deny na ferramenta em formato de
fetch que a sinalizou.Pivote para os events
Mergulhe no event negado. Ele carrega o nome de ferramenta, a regra e o
motivo correspondentes, a superfície e a linhagem de run/sessão — a mesma
linhagem que você usará para alinhar o lado do guardrail.
Cheque o que foi filtrado na mesma run
Abra Guardrails → Matches e filtre para essa run. Se uma regra de
Secrets Blocker ou PII disparou no prompt, você agora sabe que o agente foi
entregue material sensível antes de tentar exfiltrá-lo.
7. Relatórios de compliance assinados — uma trilha que um auditor pode verificar
Para prova externa, a superfície de Compliance transforma esta trilha em um único artefato. Navegar no catálogo de frameworks, packs e prontidão é aberto a qualquer Member e gratuito; instalar um pack, gerar um relatório, entrar em produção e definir residência de dados são ações de Admin de workspace em um plano pago (gated no servidor). Um relatório de compliance é assinado com Ed25519 com um hash de conteúdo SHA256 e é publicamente verificável — o destinatário o checa sem uma conta OrcaRouter:| Endpoint | Propósito |
|---|---|
GET /api/public/compliance/pubkey | A chave pública contra a qual verificar. |
POST /api/public/compliance/verify | Verifica a assinatura + hash de um relatório. |
GET /api/public/compliance/share/:token | Um link de compartilhamento-com-auditor para um relatório. |
soc2,
hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, o EU AI
Act (eu_ai_act) e o OWASP Top 10 para Aplicações de LLM (owasp_llm),
entre outros — instalar um pack materializa os guardrails e políticas de
firewall correspondentes para que os controles sobre os quais você reporta
sejam os controles realmente aplicados.
Residência de dados aqui é a região do artefato de relatório (
us /
eu / uk / ap / cn / global), definível via
PUT /api/compliance/residency (Admin); leituras cross-region são retidas. Ela
governa onde o artefato de evidência vive — não é geo-fixação do seu tráfego de
inferência.8. Retenção e o direito ao apagamento
Um registro forense é limitado, não eterno. Request logs têm retenção padrão de 30 dias e são clampeados no servidor a um máximo rígido de 180 dias. Quando um usuário se auto-deleta, uma janela de carência de 30 dias se aplica, após a qual sua PII é depurada e a cascata purga suas matches de guardrail, request logs e events de firewall — satisfazendo obrigações de direito-ao-apagamento / DSAR enquanto mantém o histórico de auditoria agregado intacto.9. Para onde ir a seguir
Referência de Guardrails
Matches, log de raw-content, histórico de versões e o conjunto de regras
completo.
Referência de Firewall
Events, Runs, anomalias, aprovações e o log de auditoria.
Agência excessiva
Restrinja o que um agente tem permissão de fazer antes de ele agir.
Modos de enforcement
Audit, shadow e observe — como construir uma trilha antes de aplicar.
