Saltar para o conteúdo principal
Quando algo dá errado com um agente, a primeira pergunta é sempre a mesma: o que ele realmente fez, e quem mudou a política que permitiu isso? Sem uma trilha você não consegue responder a nenhuma das duas. Você não consegue mostrar a um auditor que um controle estava em vigor no dia em questão, não consegue distinguir um ataque real de um falso positivo barulhento, e não consegue reconstruir a run que vazou a linha. O OrcaRouter registra a resposta conforme você avança. Cada prompt filtrado, cada chamada de ferramenta, cada aprovação e cada edição de política cai em um registro consultável e com escopo de workspace — correlacionado de volta à run e sessão do agente que o produziu. Esta página mostra como usar esse registro como uma trilha de auditoria de agente de ia: de uma única run suspeita a um relatório assinado que você entrega a um auditor.
Tudo aqui tem escopo de workspace. Membros veem a trilha do seu workspace; nada cruza fronteiras de tenant. A trilha é produzida por features que você já configura — Guardrails e o Firewall — então ligar o enforcement liga o forense ao mesmo tempo.

1. Os quatro registros por trás de uma trilha de auditoria de agente de ia

A atribuição vem de quatro fluxos independentes, cada um correlacionado à mesma run e sessão para que você possa pivotar entre eles:

Matches de Guardrail

Cada regra de conteúdo que disparou em uma requisição ou resposta — tipo de regra, ação, stage e uma string de detalhe. Legível por Member.

Events & Runs de Firewall

Cada veredito de chamada de ferramenta — allow, audit, deny, sanitize, pending_approval (reter-para-aprovação) e o veredito resolvido de uma regra cap_cost — agregado por run e sessão de agente. Developer+.

Decisões de aprovação

Quem aprovou ou rejeitou cada chamada de ferramenta retida, registrado como uma ação de auditoria.

Histórico de mudanças de política

Cada edição de guardrail e firewall — versionada, diffável, revertível — mais uma linha de auditoria de workspace por mudança.
O tecido conjuntivo é o id da run de agente e da sessão. Uma match de guardrail e um event de firewall da mesma conversa carregam a mesma linhagem de run, então “esta run mascarou um e-mail, depois tentou um fetch que negamos, depois foi aprovada para uma escrita” se lê como uma única história em vez de três logs desconectados.

2. Matches de Guardrail — o que foi filtrado (Member)

Cada vez que uma regra de guardrail dispara, o gateway escreve uma match. O feed vive na página de Guardrails (aba Matches) e é legível por qualquer membro do workspace. Cada match registra o tipo de regra, a ação tomada (block / mask / flag / annotate / spotlight), o stage (input / output), uma string de detalhe e a linhagem de run da requisição que a disparou. Liste-a, agrupe-a por guardrail ou tipo de regra, filtre por ação, mergulhe em uma única match ou exporte o feed para CSV.
O substring correspondente (o e-mail real, o SSN) é registrado apenas quando o toggle Log raw content do guardrail está ligado — e ele está desligado por padrão, a postura conservadora de privacidade. Com ele desligado, você obtém que uma regra disparou e sua meta-string de detalhe, mas não o valor bruto. Ligue-o por guardrail quando você precisar do substring para triagem; a configuração não é retroativa.
Uma regra barulhenta faz parte da trilha também. Marque uma match como falso positivo com POST /api/guardrail/match/:id/mark-fp (Admin) para que seu sinal permaneça limpo e seus relatórios não contem em excesso.

3. Events & Runs de Firewall — o que o agente fez (Developer+)

Onde Matches cobrem texto, os Events de firewall cobrem ações. Cada avaliação de chamada de ferramenta é registrada com seu veredito, superfície, nome de ferramenta e — criticamente — a run e sessão de agente à qual pertence. Leituras em Events, no rollup de Runs/sessões e no trace por-run exigem Developer+; os feeds mais leves de Discovered-tools e de anomalias estão abertos a qualquer Member. A view Runs & sessions é o cavalo de batalha forense: ela agrega events por run de agente em um breakdown de veredito, as ferramentas e modelos distintos que a run tocou e timestamps de primeira/última-vez-vistas — a resposta “o que este agente realmente fez” em uma única tela. Além dos vereditos estáticos, o feed de anomalias sinaliza desvios da baseline por hora-da-semana aprendida de cada workspace (uma média móvel de 14 dias) — picos de taxa e custo, retry_loop e transições novel_path — de modo que um padrão permitido-mas-anormal ainda aparece no registro.

4. Decisões de aprovação — quem disse sim (ação de auditoria)

Quando uma regra resolve para pending_approval, a chamada retida se torna uma revisão out-of-band (veja o fluxo HITL do Firewall). A decisão faz parte da trilha: aprovar ou rejeitar escreve uma linha de auditoria de workspace — firewall_approval_approve ou firewall_approval_reject — nomeando o ator. As decisões são first-writer-wins e idempotentes, e se a regra subjacente mudou após a retenção, o enriquecimento nota que o contexto mudou. Então uma chamada de ferramenta retida-e-depois-aprovada é totalmente atribuível de ponta a ponta: o event de firewall mostra a retenção, a linha de auditoria mostra quem a liberou, e ambos correlacionam à mesma run.

5. Auditoria de mudança de política — quem mudou as regras

Uma trilha de comportamento de agente só é confiável se você também pode provar qual era a política na época — e quem a mudou. Guardrails mantêm um histórico de versões completo. Cada create, update e delete escreve uma linha de histórico versionada na mesma transação da mudança. Abra History em um guardrail para ver cada versão com autor e timestamp, fazer diff de quaisquer duas e reverter para uma mais antiga (reverter é registrado como uma nova versão — o histórico nunca é mutado). Mudanças de política, regra e configurações do Firewall escrevem cada uma uma linha de auditoria de workspace depois que a mudança é commitada — firewall_policy_update, firewall_rule_create, firewall_settings_update, e assim por diante — e mudanças de nível de autonomia (firewall_autonomy_applied / firewall_autonomy_undone) capturam o snapshot do estado-anterior que alimenta o desfazer em um clique. Segredos e blobs de regra nunca são registrados.
Ambos os planos registram a mudança e mantêm a política reversível. Se uma edição de regra causou uma regressão, a trilha de mudança de política te diz qual edição e quem a fez — e você faz rollback sem fazer redeploy de nada.

6. Um exemplo trabalhado: rastreie uma run suspeita

Suponha que uma run é sinalizada por uma chamada outbound inesperada. Do console, com uma sessão Developer+:
1

Abra a run em Firewall → Runs

Encontre a run pelo seu id. O rollup mostra cada ferramenta que ela chamou e o veredito em cada uma — incluindo o deny na ferramenta em formato de fetch que a sinalizou.
2

Pivote para os events

Mergulhe no event negado. Ele carrega o nome de ferramenta, a regra e o motivo correspondentes, a superfície e a linhagem de run/sessão — a mesma linhagem que você usará para alinhar o lado do guardrail.
3

Cheque o que foi filtrado na mesma run

Abra Guardrails → Matches e filtre para essa run. Se uma regra de Secrets Blocker ou PII disparou no prompt, você agora sabe que o agente foi entregue material sensível antes de tentar exfiltrá-lo.
4

Confirme que a política estava em vigor

Abra History no guardrail e as linhas de auditoria da política de firewall. Confirme que ninguém enfraqueceu a regra relevante antes da run — e se o fizeram, você tem o autor e o timestamp.
Uma run, quatro registros correlacionados, sem arqueologia de log-grep. Para as próprias defesas de exfiltração, veja Exfiltração de dados e Chamadas de ferramenta perigosas.

7. Relatórios de compliance assinados — uma trilha que um auditor pode verificar

Para prova externa, a superfície de Compliance transforma esta trilha em um único artefato. Navegar no catálogo de frameworks, packs e prontidão é aberto a qualquer Member e gratuito; instalar um pack, gerar um relatório, entrar em produção e definir residência de dados são ações de Admin de workspace em um plano pago (gated no servidor). Um relatório de compliance é assinado com Ed25519 com um hash de conteúdo SHA256 e é publicamente verificável — o destinatário o checa sem uma conta OrcaRouter:
EndpointPropósito
GET /api/public/compliance/pubkeyA chave pública contra a qual verificar.
POST /api/public/compliance/verifyVerifica a assinatura + hash de um relatório.
GET /api/public/compliance/share/:tokenUm link de compartilhamento-com-auditor para um relatório.
Relatórios exportam como CSV / JSON / PDF. Frameworks incluem soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, o EU AI Act (eu_ai_act) e o OWASP Top 10 para Aplicações de LLM (owasp_llm), entre outros — instalar um pack materializa os guardrails e políticas de firewall correspondentes para que os controles sobre os quais você reporta sejam os controles realmente aplicados.
Residência de dados aqui é a região do artefato de relatório (us / eu / uk / ap / cn / global), definível via PUT /api/compliance/residency (Admin); leituras cross-region são retidas. Ela governa onde o artefato de evidência vive — não é geo-fixação do seu tráfego de inferência.

8. Retenção e o direito ao apagamento

Um registro forense é limitado, não eterno. Request logs têm retenção padrão de 30 dias e são clampeados no servidor a um máximo rígido de 180 dias. Quando um usuário se auto-deleta, uma janela de carência de 30 dias se aplica, após a qual sua PII é depurada e a cascata purga suas matches de guardrail, request logs e events de firewall — satisfazendo obrigações de direito-ao-apagamento / DSAR enquanto mantém o histórico de auditoria agregado intacto.

9. Para onde ir a seguir

Referência de Guardrails

Matches, log de raw-content, histórico de versões e o conjunto de regras completo.

Referência de Firewall

Events, Runs, anomalias, aprovações e o log de auditoria.

Agência excessiva

Restrinja o que um agente tem permissão de fazer antes de ele agir.

Modos de enforcement

Audit, shadow e observe — como construir uma trilha antes de aplicar.