1. Logging de privacidade de guardrail: desligado por padrão
Todo guardrail carrega um único toggle por política, Log raw content, e ele vem desligado. Com ele desligado, um match registra os metadados do que disparou mas nunca copia o texto ofensor para o feed:Registrado com o toggle DESLIGADO
Tipo de regra, ação, estágio e uma string de detalhe curta — o suficiente
para saber que uma regra
pii mascarou um email na requisição, sem
armazenar o endereço.Adicionado apenas quando LIGADO
A(s) substring(s) correspondente(s) — o texto literal que a regra
pegou. Capturado apenas para matches registrados depois de você habilitar
o toggle.
Desligado por padrão é a postura conservadora de privacidade. A substring
correspondente é a coisa mais sensível que um guardrail poderia registrar — é,
por definição, o dado que a regra existe para pegar. O OrcaRouter não a
armazena a menos que você opte por guardrail.
2. O que um registro de match contém
Um match é um pequeno registro de diagnóstico com escopo de workspace. Com Log raw content desligado, ele carrega apenas metadados:| Campo | Exemplo | Presente quando o toggle está desligado? |
|---|---|---|
| Tipo de regra | pii, regex, keyword | Sim |
| Ação | block, mask, flag | Sim |
| Estágio | input, output | Sim |
| Detalhe | string classificadora curta (ex.: a entidade) | Sim |
| Substring correspondente | jane@acme.com | Apenas quando LIGADO |
3. Um exemplo concreto
Pegue um guardrail com uma regrapii que mascara email na requisição,
vinculado a uma chave. Um chamador envia:
[EMAIL] antes de o modelo vê-lo, e um match
cai no feed. O que esse match contém depende inteiramente do toggle:
Log raw content DESLIGADO (padrão)
Log raw content DESLIGADO (padrão)
O match registra: tipo de regra
pii, ação mask, estágio input e uma
string de detalhe nomeando a entidade email. Ele não armazena
jane@acme.com. Você sabe que um email foi mascarado na requisição; você
não consegue ler o email de volta a partir do feed.Log raw content LIGADO
Log raw content LIGADO
O mesmo match adicionalmente carrega a substring correspondente —
jane@acme.com — para que você possa confirmar precisamente o que a regra
pegou durante uma passada de triagem.4. Ligando (e a garantia de não-retroatividade)
Log raw content é uma configuração por guardrail. Editar um guardrail é uma ação de console sob sua própria sessão e exige Developer+ no workspace — apenas a chamada final/v1/* usa uma chave de relay
sk-orca-....
Abra o guardrail
No console, abra Guardrails e edite a política para a qual você quer
capturar substrings.
Habilite Log raw content
Ligue o toggle Log raw content e salve. Salvar escreve uma linha de
histórico versionada, então a mudança é auditável e revertível — veja
Versionamento.
5. O que é capturado quando está ligado
Quando Log raw content está ligado, o motor anexa o texto literal correspondente a cada violação, com dois limites rígidos que impedem um input patológico de inflar um único registro de match:- No máximo 32 entradas correspondentes por violação.
- Cada entrada é limitada a 256 caracteres.
Mesmo com o toggle ligado, um guardrail só registra texto que uma regra
realmente correspondeu. O prompt ao redor e o resto da resposta nunca são
copiados para o feed de Matches. Payloads completos de requisição/resposta são
uma preocupação separada do diagnóstico de guardrail.
6. Removendo substrings que você já capturou
Como o toggle não é retroativo, desligá-lo deixa substrings anteriores no lugar. Duas superfícies as limpam:| Quer remover | Como |
|---|---|
| Um match ruidoso | Marque-o como falso positivo — POST /api/guardrail/match/:id/mark-fp (Admin do workspace), ou a ação Mark false positive no feed. |
| Todos os matches de guardrail de um usuário | A auto-exclusão de um usuário dispara uma janela de carência de 30 dias, depois uma limpeza de PII que cascateia por matches de guardrail, logs de requisição e eventos de firewall. Veja Compliance. |
7. Quem pode ler o quê
O feed de Matches é dado de diagnóstico com escopo de workspace. O acesso de leitura está aberto a cada membro ativo; a ação destrutiva de falso positivo é gateada mais alto:| Ação | Rota | Papel |
|---|---|---|
| Listar / agrupar / stats / exportar matches | GET /api/guardrail/match* | Member |
| Detalhe de um único match | GET /api/guardrail/match/:id | Member |
| Marcar / desmarcar falso positivo | POST / DELETE /api/guardrail/match/:id/mark-fp | Admin |
| Editar um guardrail (incl. Log raw content) | PUT /api/guardrail/ | Developer+ |
8. Um padrão de privacidade prático
Para a maioria dos workspaces a forma certa é: deixe Log raw content desligado, rode seus guardrails nos metadados, e ligue o toggle temporariamente para uma única política quando você estiver depurando ativamente por que uma regra dispara da forma que dispara. Depois desligue-o de novo — novos matches param de carregar substrings imediatamente.9. Para onde ir a seguir
Feed de matches
Navegue, agrupe, filtre e exporte cada match registrado.
Ajustar falsos positivos
Marque e refine matches para silenciar uma regra ruidosa.
Versionamento
Cada virada de toggle é uma mudança versionada e revertível.
Compliance
Retenção, apagamento de titular de dados e relatórios assinados.
