Logging e privacidade de guardrail

Quando uma regra de guardrail dispara, o OrcaRouter registra um match para que você possa ver o que acionou e com que frequência. A pergunta de privacidade é a que esta página responde: esse registro contém o texto sensível real — o email real, o SSN, a chave de API — ou apenas o fato de que uma regra correspondeu? Por padrão ele contém apenas o fato. O logging de privacidade de guardrail no gateway hospedado é conservador de propósito: a substring correspondente não é armazenada a menos que você ligue explicitamente Log raw content para aquele guardrail, e virar o toggle nunca alcança de volta dados que você já registrou. Este é um destino focado na postura de privacidade do feed de Matches. Para o feed em si — navegar, agrupar, exportar — veja Feed de matches. Para o motor completo, veja a referência de Guardrails.

1. Logging de privacidade de guardrail: desligado por padrão

Todo guardrail carrega um único toggle por política, Log raw content, e ele vem desligado. Com ele desligado, um match registra os metadados do que disparou mas nunca copia o texto ofensor para o feed:

Registrado com o toggle DESLIGADO

Tipo de regra, ação, estágio e uma string de detalhe curta — o suficiente para saber que uma regra pii mascarou um email na requisição, sem armazenar o endereço.

Adicionado apenas quando LIGADO

A(s) substring(s) correspondente(s) — o texto literal que a regra pegou. Capturado apenas para matches registrados depois de você habilitar o toggle.

A justificativa é a que a maioria dos times de compliance quer por padrão: você aprende que um SSN apareceu no seu tráfego e como a política o tratou, sem copiar dados regulados de volta da requisição para o seu próprio armazenamento de diagnóstico.

Desligado por padrão é a postura conservadora de privacidade. A substring correspondente é a coisa mais sensível que um guardrail poderia registrar — é, por definição, o dado que a regra existe para pegar. O OrcaRouter não a armazena a menos que você opte por guardrail.

2. O que um registro de match contém

Um match é um pequeno registro de diagnóstico com escopo de workspace. Com Log raw content desligado, ele carrega apenas metadados:

Campo	Exemplo	Presente quando o toggle está desligado?
Tipo de regra	`pii`, `regex`, `keyword`	Sim
Ação	`block`, `mask`, `flag`	Sim
Estágio	`input`, `output`	Sim
Detalhe	string classificadora curta (ex.: a entidade)	Sim
Substring correspondente	`jane@acme.com`	Apenas quando LIGADO

O campo de substring correspondente é a única coisa que o toggle gateia. Todo o resto é registrado de qualquer forma, então o feed é útil para análise de volume, tendência e mix de ações mesmo com o conteúdo bruto desligado.

Você pode rodar um programa inteiro de observar-ou-aplicar — ver onde PII entra, quais regras disparam mais, se uma política é ruidosa — puramente nos metadados. Ligue a substring apenas para a janela estreita onde você precisa inspecionar exatamente o que correspondeu durante a triagem.

3. Um exemplo concreto

Pegue um guardrail com uma regra pii que mascara email na requisição, vinculado a uma chave. Um chamador envia:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

A regra mascara o endereço para [EMAIL] antes de o modelo vê-lo, e um match cai no feed. O que esse match contém depende inteiramente do toggle:

Log raw content DESLIGADO (padrão)

O match registra: tipo de regra pii, ação mask, estágio input e uma string de detalhe nomeando a entidade email. Ele não armazena jane@acme.com. Você sabe que um email foi mascarado na requisição; você não consegue ler o email de volta a partir do feed.

Log raw content LIGADO

O mesmo match adicionalmente carrega a substring correspondente — jane@acme.com — para que você possa confirmar precisamente o que a regra pegou durante uma passada de triagem.

A requisição em si é idêntica nos dois casos. O toggle muda apenas o que o feed de diagnóstico retém, nunca o que o chamador ou o modelo upstream experimentam.

4. Ligando (e a garantia de não-retroatividade)

Log raw content é uma configuração por guardrail. Editar um guardrail é uma ação de console sob sua própria sessão e exige Developer+ no workspace — apenas a chamada final /v1/* usa uma chave de relay sk-orca-....

Abra o guardrail

No console, abra Guardrails e edite a política para a qual você quer capturar substrings.

Habilite Log raw content

Ligue o toggle Log raw content e salve. Salvar escreve uma linha de histórico versionada, então a mudança é auditável e revertível — veja Versionamento.

A captura começa daqui para a frente

A partir da próxima requisição, matches neste guardrail incluem a substring correspondente. Matches registrados antes de você virar o toggle permanecem apenas metadados.

O toggle não é retroativo — nos dois sentidos. Ligá-lo não preenche retroativamente substrings em matches que você já registrou; esses registros mais antigos permanecem apenas metadados para sempre. Desligá-lo para de capturar novas substrings mas não apaga substrings já armazenadas em matches passados. Se você precisa que aquelas sumam, veja §6.

5. O que é capturado quando está ligado

Quando Log raw content está ligado, o motor anexa o texto literal correspondente a cada violação, com dois limites rígidos que impedem um input patológico de inflar um único registro de match:

No máximo 32 entradas correspondentes por violação.
Cada entrada é limitada a 256 caracteres.

Então um guardrail que dispara em um documento enorme armazena uma amostra limitada e representativa do que correspondeu — não o corpo inteiro. A string de detalhe também é limitada em comprimento independentemente. Estes limites existem por higiene de armazenamento; trate o conjunto capturado como evidência de o que correspondeu, não um transcript verbatim da requisição inteira.

Mesmo com o toggle ligado, um guardrail só registra texto que uma regra realmente correspondeu. O prompt ao redor e o resto da resposta nunca são copiados para o feed de Matches. Payloads completos de requisição/resposta são uma preocupação separada do diagnóstico de guardrail.

6. Removendo substrings que você já capturou

Como o toggle não é retroativo, desligá-lo deixa substrings anteriores no lugar. Duas superfícies as limpam:

Quer remover	Como
Um match ruidoso	Marque-o como falso positivo — `POST /api/guardrail/match/:id/mark-fp` (Admin do workspace), ou a ação Mark false positive no feed.
Todos os matches de guardrail de um usuário	A auto-exclusão de um usuário dispara uma janela de carência de 30 dias, depois uma limpeza de PII que cascateia por matches de guardrail, logs de requisição e eventos de firewall. Veja Compliance.

Para ajustar uma regra faladora em vez de limpar dados, o fluxo de Ajustar falsos positivos percorre a marcação e o refinamento de matches.

7. Quem pode ler o quê

O feed de Matches é dado de diagnóstico com escopo de workspace. O acesso de leitura está aberto a cada membro ativo; a ação destrutiva de falso positivo é gateada mais alto:

Ação	Rota	Papel
Listar / agrupar / stats / exportar matches	`GET /api/guardrail/match*`	Member
Detalhe de um único match	`GET /api/guardrail/match/:id`	Member
Marcar / desmarcar falso positivo	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
Editar um guardrail (incl. Log raw content)	`PUT /api/guardrail/`	Developer+

Estas rotas de gerenciamento autenticam com sua sessão do console, não uma chave de relay. Leituras nunca expõem uma substring que o toggle não capturou — não há nada extra para redigir no momento da leitura, porque nada extra foi armazenado.

8. Um padrão de privacidade prático

Para a maioria dos workspaces a forma certa é: deixe Log raw content desligado, rode seus guardrails nos metadados, e ligue o toggle temporariamente para uma única política quando você estiver depurando ativamente por que uma regra dispara da forma que dispara. Depois desligue-o de novo — novos matches param de carregar substrings imediatamente.

Isso combina naturalmente com um rollout somente observação. Comece com o Compliance Logger (somente flag), observe o feed de Matches nos metadados, e só recorra ao conteúdo bruto se um match específico precisar de um olhar mais de perto.

9. Para onde ir a seguir

Feed de matches

Navegue, agrupe, filtre e exporte cada match registrado.

Ajustar falsos positivos

Marque e refine matches para silenciar uma regra ruidosa.

Versionamento

Cada virada de toggle é uma mudança versionada e revertível.

Compliance

Retenção, apagamento de titular de dados e relatórios assinados.

Para como isto se encaixa na pilha de controle mais ampla, veja Guardrails vs firewall e Exfiltração de dados. Para o motor completo — estágios, regras avançadas e rotas — leia a referência de Guardrails.

​1. Logging de privacidade de guardrail: desligado por padrão

Registrado com o toggle DESLIGADO

Adicionado apenas quando LIGADO

​2. O que um registro de match contém

​3. Um exemplo concreto

​4. Ligando (e a garantia de não-retroatividade)

​5. O que é capturado quando está ligado

​6. Removendo substrings que você já capturou

​7. Quem pode ler o quê

​8. Um padrão de privacidade prático

​9. Para onde ir a seguir

Feed de matches

Ajustar falsos positivos

Versionamento

Compliance

1. Logging de privacidade de guardrail: desligado por padrão

2. O que um registro de match contém

3. Um exemplo concreto

4. Ligando (e a garantia de não-retroatividade)

5. O que é capturado quando está ligado

6. Removendo substrings que você já capturou

7. Quem pode ler o quê

8. Um padrão de privacidade prático

9. Para onde ir a seguir