Guardrail 로깅 및 프라이버시

guardrail 규칙이 발동하면, OrcaRouter는 무엇이 발동했고 얼마나 자주 인지 볼 수 있도록 match를 기록합니다. 프라이버시 질문은 이 페이지가 답하는 것입니다: 그 기록이 실제 민감한 텍스트 — 실제 이메일, SSN, API 키 — 를 담는가, 아니면 규칙이 매치되었다는 사실만 담는가? 기본적으로는 사실만 담습니다. 호스팅된 게이트웨이의 guardrail 프라이버시 로깅은 의도적으로 보수적입니다: 매치된 부분 문자열은 그 guardrail에 대해 Log raw content를 명시적으로 켜지 않는 한 저장되지 않으며, 토글을 전환하는 것은 이미 로깅한 데이터에 결코 소급하지 않습니다. 이것은 Matches 피드의 프라이버시 자세에 초점을 둔 랜딩입니다. 피드 자체 — 둘러보기, 그룹화, 내보내기 — 는 Matches 피드를 참조하세요. 전체 엔진은 Guardrails 레퍼런스를 참조하세요.

1. guardrail 프라이버시 로깅: 기본적으로 꺼짐

모든 guardrail은 단일 정책별 토글, Log raw content를 운반하며, 그것은 꺼진 채로 제공됩니다. 그것이 꺼져 있으면, 매치는 발동한 것의 메타데이터를 기록하지만 위반 텍스트를 피드에 결코 복사하지 않습니다:

토글이 OFF일 때 기록됨

규칙 타입, 액션, 스테이지, 그리고 짧은 상세 문자열 — 주소를 저장하지 않고도 pii 규칙이 요청에서 email을 마스킹했음을 알기에 충분합니다.

ON일 때만 추가됨

매치된 부분 문자열 — 규칙이 잡은 리터럴 텍스트. 토글을 활성화한 후에 기록된 매치에 대해서만 캡처됩니다.

근거는 대부분의 컴플라이언스 팀이 기본적으로 원하는 것입니다: 규제된 데이터를 요청에서 다시 빼내 당신 자신의 진단 저장소에 복사하지 않고도 SSN이 당신의 트래픽에 나타났다는 사실과 정책이 그것을 어떻게 처리했는지 알게 됩니다.

기본적으로 꺼짐이 프라이버시 보수적 자세입니다. 매치된 부분 문자열은 guardrail이 로깅할 수 있는 가장 민감한 것입니다 — 그것은 정의상, 규칙이 잡기 위해 존재하는 데이터입니다. OrcaRouter는 guardrail별로 옵트인하지 않는 한 그것을 저장하지 않습니다.

2. 매치 기록이 담는 것

매치는 작은, 워크스페이스 범위 진단 기록입니다. Log raw content가 꺼져 있으면, 메타데이터만 운반합니다:

필드	예시	토글이 꺼져 있을 때 존재?
규칙 타입	`pii`, `regex`, `keyword`	Yes
액션	`block`, `mask`, `flag`	Yes
스테이지	`input`, `output`	Yes
상세	짧은 분류기 문자열(예: 엔티티)	Yes
매치된 부분 문자열	`jane@acme.com`	ON일 때만

매치된 부분 문자열 필드는 토글이 게이트하는 유일한 것입니다. 그 외 모든 것은 어느 쪽이든 기록되므로, 원시 콘텐츠가 꺼져 있어도 피드는 볼륨, 트렌드, 액션 혼합 분석에 유용합니다.

전체 관찰 또는 강제 프로그램을 — PII가 어디로 진입하는지, 어느 규칙이 가장 많이 발동하는지, 정책이 노이즈가 많은지 — 순전히 메타데이터로 실행할 수 있습니다. 분류 중에 정확히 무엇이 매치되었는지 눈으로 확인해야 하는 좁은 윈도우에만 부분 문자열을 켜세요.

3. 하나의 구체적인 예

키에 연결된, 요청에서 email을 마스킹하는 pii 규칙이 있는 guardrail을 봅시다. 호출자가 보냅니다:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

규칙은 모델이 보기 전에 주소를 [EMAIL]로 마스킹하고, 매치가 피드에 안착합니다. 그 매치가 무엇을 담는지는 전적으로 토글에 달려 있습니다:

Log raw content OFF (기본값)

매치는 다음을 기록합니다: 규칙 타입 pii, 액션 mask, 스테이지 input, 그리고 email 엔티티를 명시하는 상세 문자열. jane@acme.com을 저장하지 않습니다. 요청에서 이메일이 마스킹되었음을 압니다; 피드에서 이메일을 다시 읽어낼 수는 없습니다.

Log raw content ON

동일한 매치가 추가로 매치된 부분 문자열 — jane@acme.com — 을 운반하므로, 분류 패스 중에 규칙이 정확히 무엇을 잡았는지 확인할 수 있습니다.

요청 자체는 두 경우 모두 동일합니다. 토글은 진단 피드가 보존하는 것만 변경하며, 호출자나 업스트림 모델이 경험하는 것은 결코 변경하지 않습니다.

4. 켜기 (그리고 비소급 보장)

Log raw content는 guardrail별 설정입니다. guardrail을 편집하는 것은 당신의 세션에서의 콘솔 액션이며 워크스페이스에서 **Developer+**를 요구합니다 — 최종 /v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다.

guardrail 열기

콘솔에서 Guardrails를 열고 부분 문자열을 캡처하려는 정책을 편집합니다.

Log raw content 활성화

Log raw content 토글을 켜고 저장합니다. 저장은 버전 관리된 히스토리 행을 쓰므로, 변경은 감사 가능하고 되돌릴 수 있습니다 — 버전 관리를 참조하세요.

캡처가 앞으로 시작됨

다음 요청부터, 이 guardrail의 매치는 매치된 부분 문자열을 포함합니다. 토글을 전환하기 전에 기록된 매치는 메타데이터 전용으로 유지됩니다.

토글은 비소급입니다 — 양방향으로. 그것을 켜는 것은 이미 로깅한 매치에 부분 문자열을 백필하지 않습니다; 그 더 오래된 기록은 영원히 메타데이터 전용으로 유지됩니다. 그것을 끄는 것은 새 부분 문자열 캡처를 중단하지만 과거 매치에 이미 저장된 부분 문자열을 지우지 않습니다. 그것들을 없애야 한다면, §6을 참조하세요.

5. 켜져 있을 때 무엇이 캡처되는가

Log raw content가 켜져 있으면, 엔진은 각 위반에 리터럴 매치된 텍스트를 첨부하며, 하나의 병리적 입력이 단일 매치 기록을 부풀리지 않도록 하는 두 개의 하드 상한이 있습니다:

위반당 최대 32개의 매치된 항목.
각 항목은 256자로 상한 처리됨.

따라서 거대한 문서에서 발동하는 guardrail은 전체 본문이 아니라 매치된 것의 한정된, 대표적인 샘플을 저장합니다. 상세 문자열도 독립적으로 길이가 한정됩니다. 이 상한은 저장 위생을 위해 존재합니다; 캡처된 세트를 전체 요청의 그대로의 기록이 아니라 무엇이 매치되었는지의 증거로 취급하세요.

토글이 켜져 있어도, guardrail은 규칙이 실제로 매치한 텍스트만 결코 기록합니다. 주변 프롬프트와 응답의 나머지는 결코 Matches 피드에 복사되지 않습니다. 전체 요청/응답 페이로드는 guardrail 진단과는 별개의 관심사입니다.

6. 이미 캡처한 부분 문자열 제거하기

토글이 비소급이므로, 그것을 끄는 것은 이전 부분 문자열을 제자리에 남깁니다. 두 표면이 그것들을 지웁니다:

제거하려는 것	방법
노이즈가 많은 매치 하나	거짓 양성으로 표시 — `POST /api/guardrail/match/:id/mark-fp`(워크스페이스 Admin), 또는 피드의 Mark false positive 액션.
한 사용자에 대한 모든 guardrail 매치	사용자 자기 삭제는 30일 유예 윈도우를 트리거한 뒤, guardrail 매치, 요청 로그, firewall 이벤트를 통해 연쇄되는 PII 정화를 트리거합니다. Compliance를 참조하세요.

데이터를 정화하기보다 수다스러운 규칙을 튜닝하려면, 거짓 양성 튜닝 흐름이 매치 표시와 정제를 안내합니다.

7. 누가 무엇을 읽을 수 있는가

Matches 피드는 워크스페이스 범위 진단 데이터입니다. 읽기 액세스는 모든 활성 멤버에게 개방됩니다; 파괴적 거짓 양성 액션은 더 높이 게이팅됩니다:

액션	라우트	역할
매치 나열 / 그룹화 / 통계 / 내보내기	`GET /api/guardrail/match*`	Member
단일 매치 상세	`GET /api/guardrail/match/:id`	Member
거짓 양성 표시 / 해제	`POST` / `DELETE /api/guardrail/match/:id/mark-fp`	Admin
guardrail 편집(Log raw content 포함)	`PUT /api/guardrail/`	Developer+

이 관리 라우트는 릴레이 키가 아니라 당신의 콘솔 세션으로 인증합니다. 읽기는 토글이 캡처하지 않은 부분 문자열을 결코 노출하지 않습니다 — 읽기 시점에 마스킹할 추가가 없습니다. 추가가 저장되지 않았기 때문입니다.

8. 실용적인 프라이버시 기본값

대부분의 워크스페이스에 올바른 형태는: Log raw content를 꺼둔 채로, guardrail을 메타데이터로 실행하고, 규칙이 왜 그런 방식으로 발동하는지 적극적으로 디버깅할 때 단일 정책에 대해 토글을 일시적으로 켜는 것입니다. 그 다음 다시 끄세요 — 새 매치는 즉시 부분 문자열 운반을 중단합니다.

이것은 관찰 전용 롤아웃과 자연스럽게 짝지어집니다. Compliance Logger(flag 전용)로 시작하여, 메타데이터로 Matches 피드를 지켜보고, 특정 매치가 더 자세히 봐야 할 때만 원시 콘텐츠를 찾으세요.

9. 다음으로 갈 곳

Matches 피드

기록된 모든 매치를 둘러보고, 그룹화하고, 필터링하고, 내보냅니다.

거짓 양성 튜닝

매치를 표시하고 정제하여 노이즈가 많은 규칙을 조용히 만듭니다.

버전 관리

모든 토글 전환은 버전 관리되고 되돌릴 수 있는 변경입니다.

Compliance

보존, 데이터 주체 삭제, 그리고 서명된 보고서.

이것이 더 넓은 제어 스택에 어떻게 맞는지는 Guardrails vs firewall과 데이터 유출을 참조하세요. 완전한 엔진 — 스테이지, 고급 규칙, 라우트 — 은 Guardrails 레퍼런스를 읽으세요.

​1. guardrail 프라이버시 로깅: 기본적으로 꺼짐

토글이 OFF일 때 기록됨

ON일 때만 추가됨

​2. 매치 기록이 담는 것

​3. 하나의 구체적인 예

​4. 켜기 (그리고 비소급 보장)

​5. 켜져 있을 때 무엇이 캡처되는가

​6. 이미 캡처한 부분 문자열 제거하기

​7. 누가 무엇을 읽을 수 있는가

​8. 실용적인 프라이버시 기본값

​9. 다음으로 갈 곳

Matches 피드

거짓 양성 튜닝

버전 관리

Compliance

1. guardrail 프라이버시 로깅: 기본적으로 꺼짐

2. 매치 기록이 담는 것

3. 하나의 구체적인 예

4. 켜기 (그리고 비소급 보장)

5. 켜져 있을 때 무엇이 캡처되는가

6. 이미 캡처한 부분 문자열 제거하기

7. 누가 무엇을 읽을 수 있는가

8. 실용적인 프라이버시 기본값

9. 다음으로 갈 곳