Falta de atribuição e forense

Quando algo dá errado com um agente, a primeira pergunta é sempre a mesma: o que ele realmente fez, e quem mudou a política que permitiu isso? Sem uma trilha você não consegue responder a nenhuma das duas. Você não consegue mostrar a um auditor que um controle estava em vigor no dia em questão, não consegue distinguir um ataque real de um falso positivo barulhento, e não consegue reconstruir a run que vazou a linha. O OrcaRouter registra a resposta conforme você avança. Cada prompt filtrado, cada chamada de ferramenta, cada aprovação e cada edição de política cai em um registro consultável e com escopo de workspace — correlacionado de volta à run e sessão do agente que o produziu. Esta página mostra como usar esse registro como uma trilha de auditoria de agente de ia: de uma única run suspeita a um relatório assinado que você entrega a um auditor.

Tudo aqui tem escopo de workspace. Membros veem a trilha do seu workspace; nada cruza fronteiras de tenant. A trilha é produzida por features que você já configura — Guardrails e o Firewall — então ligar o enforcement liga o forense ao mesmo tempo.

1. Os quatro registros por trás de uma trilha de auditoria de agente de ia

A atribuição vem de quatro fluxos independentes, cada um correlacionado à mesma run e sessão para que você possa pivotar entre eles:

Matches de Guardrail

Cada regra de conteúdo que disparou em uma requisição ou resposta — tipo de regra, ação, stage e uma string de detalhe. Legível por Member.

Events & Runs de Firewall

Cada veredito de chamada de ferramenta — allow, audit, deny, sanitize, pending_approval (reter-para-aprovação) e o veredito resolvido de uma regra cap_cost — agregado por run e sessão de agente. Developer+.

Decisões de aprovação

Quem aprovou ou rejeitou cada chamada de ferramenta retida, registrado como uma ação de auditoria.

Histórico de mudanças de política

Cada edição de guardrail e firewall — versionada, diffável, revertível — mais uma linha de auditoria de workspace por mudança.

O tecido conjuntivo é o id da run de agente e da sessão. Uma match de guardrail e um event de firewall da mesma conversa carregam a mesma linhagem de run, então “esta run mascarou um e-mail, depois tentou um fetch que negamos, depois foi aprovada para uma escrita” se lê como uma única história em vez de três logs desconectados.

2. Matches de Guardrail — o que foi filtrado (Member)

Cada vez que uma regra de guardrail dispara, o gateway escreve uma match. O feed vive na página de Guardrails (aba Matches) e é legível por qualquer membro do workspace. Cada match registra o tipo de regra, a ação tomada (block / mask / flag / annotate / spotlight), o stage (input / output), uma string de detalhe e a linhagem de run da requisição que a disparou. Liste-a, agrupe-a por guardrail ou tipo de regra, filtre por ação, mergulhe em uma única match ou exporte o feed para CSV.

O substring correspondente (o e-mail real, o SSN) é registrado apenas quando o toggle Log raw content do guardrail está ligado — e ele está desligado por padrão, a postura conservadora de privacidade. Com ele desligado, você obtém que uma regra disparou e sua meta-string de detalhe, mas não o valor bruto. Ligue-o por guardrail quando você precisar do substring para triagem; a configuração não é retroativa.

Uma regra barulhenta faz parte da trilha também. Marque uma match como falso positivo com POST /api/guardrail/match/:id/mark-fp (Admin) para que seu sinal permaneça limpo e seus relatórios não contem em excesso.

3. Events & Runs de Firewall — o que o agente fez (Developer+)

Onde Matches cobrem texto, os Events de firewall cobrem ações. Cada avaliação de chamada de ferramenta é registrada com seu veredito, superfície, nome de ferramenta e — criticamente — a run e sessão de agente à qual pertence. Leituras em Events, no rollup de Runs/sessões e no trace por-run exigem Developer+; os feeds mais leves de Discovered-tools e de anomalias estão abertos a qualquer Member. A view Runs & sessions é o cavalo de batalha forense: ela agrega events por run de agente em um breakdown de veredito, as ferramentas e modelos distintos que a run tocou e timestamps de primeira/última-vez-vistas — a resposta “o que este agente realmente fez” em uma única tela. Além dos vereditos estáticos, o feed de anomalias sinaliza desvios da baseline por hora-da-semana aprendida de cada workspace (uma média móvel de 14 dias) — picos de taxa e custo, retry_loop e transições novel_path — de modo que um padrão permitido-mas-anormal ainda aparece no registro.

4. Decisões de aprovação — quem disse sim (ação de auditoria)

Quando uma regra resolve para pending_approval, a chamada retida se torna uma revisão out-of-band (veja o fluxo HITL do Firewall). A decisão faz parte da trilha: aprovar ou rejeitar escreve uma linha de auditoria de workspace — firewall_approval_approve ou firewall_approval_reject — nomeando o ator. As decisões são first-writer-wins e idempotentes, e se a regra subjacente mudou após a retenção, o enriquecimento nota que o contexto mudou. Então uma chamada de ferramenta retida-e-depois-aprovada é totalmente atribuível de ponta a ponta: o event de firewall mostra a retenção, a linha de auditoria mostra quem a liberou, e ambos correlacionam à mesma run.

5. Auditoria de mudança de política — quem mudou as regras

Uma trilha de comportamento de agente só é confiável se você também pode provar qual era a política na época — e quem a mudou. Guardrails mantêm um histórico de versões completo. Cada create, update e delete escreve uma linha de histórico versionada na mesma transação da mudança. Abra History em um guardrail para ver cada versão com autor e timestamp, fazer diff de quaisquer duas e reverter para uma mais antiga (reverter é registrado como uma nova versão — o histórico nunca é mutado). Mudanças de política, regra e configurações do Firewall escrevem cada uma uma linha de auditoria de workspace depois que a mudança é commitada — firewall_policy_update, firewall_rule_create, firewall_settings_update, e assim por diante — e mudanças de nível de autonomia (firewall_autonomy_applied / firewall_autonomy_undone) capturam o snapshot do estado-anterior que alimenta o desfazer em um clique. Segredos e blobs de regra nunca são registrados.

Ambos os planos registram a mudança e mantêm a política reversível. Se uma edição de regra causou uma regressão, a trilha de mudança de política te diz qual edição e quem a fez — e você faz rollback sem fazer redeploy de nada.

6. Um exemplo trabalhado: rastreie uma run suspeita

Suponha que uma run é sinalizada por uma chamada outbound inesperada. Do console, com uma sessão Developer+:

Abra a run em Firewall → Runs

Encontre a run pelo seu id. O rollup mostra cada ferramenta que ela chamou e o veredito em cada uma — incluindo o deny na ferramenta em formato de fetch que a sinalizou.

Pivote para os events

Mergulhe no event negado. Ele carrega o nome de ferramenta, a regra e o motivo correspondentes, a superfície e a linhagem de run/sessão — a mesma linhagem que você usará para alinhar o lado do guardrail.

Cheque o que foi filtrado na mesma run

Abra Guardrails → Matches e filtre para essa run. Se uma regra de Secrets Blocker ou PII disparou no prompt, você agora sabe que o agente foi entregue material sensível antes de tentar exfiltrá-lo.

Confirme que a política estava em vigor

Abra History no guardrail e as linhas de auditoria da política de firewall. Confirme que ninguém enfraqueceu a regra relevante antes da run — e se o fizeram, você tem o autor e o timestamp.

Uma run, quatro registros correlacionados, sem arqueologia de log-grep. Para as próprias defesas de exfiltração, veja Exfiltração de dados e Chamadas de ferramenta perigosas.

7. Relatórios de compliance assinados — uma trilha que um auditor pode verificar

Para prova externa, a superfície de Compliance transforma esta trilha em um único artefato. Navegar no catálogo de frameworks, packs e prontidão é aberto a qualquer Member e gratuito; instalar um pack, gerar um relatório, entrar em produção e definir residência de dados são ações de Admin de workspace em um plano pago (gated no servidor). Um relatório de compliance é assinado com Ed25519 com um hash de conteúdo SHA256 e é publicamente verificável — o destinatário o checa sem uma conta OrcaRouter:

Endpoint	Propósito
`GET /api/public/compliance/pubkey`	A chave pública contra a qual verificar.
`POST /api/public/compliance/verify`	Verifica a assinatura + hash de um relatório.
`GET /api/public/compliance/share/:token`	Um link de compartilhamento-com-auditor para um relatório.

Relatórios exportam como CSV / JSON / PDF. Frameworks incluem soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, o EU AI Act (eu_ai_act) e o OWASP Top 10 para Aplicações de LLM (owasp_llm), entre outros — instalar um pack materializa os guardrails e políticas de firewall correspondentes para que os controles sobre os quais você reporta sejam os controles realmente aplicados.

Residência de dados aqui é a região do artefato de relatório (us / eu / uk / ap / cn / global), definível via PUT /api/compliance/residency (Admin); leituras cross-region são retidas. Ela governa onde o artefato de evidência vive — não é geo-fixação do seu tráfego de inferência.

8. Retenção e o direito ao apagamento

Um registro forense é limitado, não eterno. Request logs têm retenção padrão de 30 dias e são clampeados no servidor a um máximo rígido de 180 dias. Quando um usuário se auto-deleta, uma janela de carência de 30 dias se aplica, após a qual sua PII é depurada e a cascata purga suas matches de guardrail, request logs e events de firewall — satisfazendo obrigações de direito-ao-apagamento / DSAR enquanto mantém o histórico de auditoria agregado intacto.

9. Para onde ir a seguir

Referência de Guardrails

Matches, log de raw-content, histórico de versões e o conjunto de regras completo.

Referência de Firewall

Events, Runs, anomalias, aprovações e o log de auditoria.

Agência excessiva

Restrinja o que um agente tem permissão de fazer antes de ele agir.

Modos de enforcement

Audit, shadow e observe — como construir uma trilha antes de aplicar.

​1. Os quatro registros por trás de uma trilha de auditoria de agente de ia

Matches de Guardrail

Events & Runs de Firewall

Decisões de aprovação

Histórico de mudanças de política

​2. Matches de Guardrail — o que foi filtrado (Member)

​3. Events & Runs de Firewall — o que o agente fez (Developer+)

​4. Decisões de aprovação — quem disse sim (ação de auditoria)

​5. Auditoria de mudança de política — quem mudou as regras

​6. Um exemplo trabalhado: rastreie uma run suspeita

​7. Relatórios de compliance assinados — uma trilha que um auditor pode verificar

​8. Retenção e o direito ao apagamento

​9. Para onde ir a seguir

Referência de Guardrails

Referência de Firewall

Agência excessiva

Modos de enforcement

1. Os quatro registros por trás de uma trilha de auditoria de agente de ia

2. Matches de Guardrail — o que foi filtrado (Member)

3. Events & Runs de Firewall — o que o agente fez (Developer+)

4. Decisões de aprovação — quem disse sim (ação de auditoria)

5. Auditoria de mudança de política — quem mudou as regras

6. Um exemplo trabalhado: rastreie uma run suspeita

7. Relatórios de compliance assinados — uma trilha que um auditor pode verificar

8. Retenção e o direito ao apagamento

9. Para onde ir a seguir