1. guardrail 프라이버시 로깅: 기본적으로 꺼짐
모든 guardrail은 단일 정책별 토글, Log raw content를 운반하며, 그것은 꺼진 채로 제공됩니다. 그것이 꺼져 있으면, 매치는 발동한 것의 메타데이터를 기록하지만 위반 텍스트를 피드에 결코 복사하지 않습니다:토글이 OFF일 때 기록됨
규칙 타입, 액션, 스테이지, 그리고 짧은 상세 문자열 — 주소를 저장하지
않고도
pii 규칙이 요청에서 email을 마스킹했음을 알기에 충분합니다.ON일 때만 추가됨
매치된 부분 문자열 — 규칙이 잡은 리터럴 텍스트. 토글을 활성화한
후에 기록된 매치에 대해서만 캡처됩니다.
기본적으로 꺼짐이 프라이버시 보수적 자세입니다. 매치된 부분 문자열은
guardrail이 로깅할 수 있는 가장 민감한 것입니다 — 그것은 정의상, 규칙이
잡기 위해 존재하는 데이터입니다. OrcaRouter는 guardrail별로 옵트인하지
않는 한 그것을 저장하지 않습니다.
2. 매치 기록이 담는 것
매치는 작은, 워크스페이스 범위 진단 기록입니다. Log raw content가 꺼져 있으면, 메타데이터만 운반합니다:| 필드 | 예시 | 토글이 꺼져 있을 때 존재? |
|---|---|---|
| 규칙 타입 | pii, regex, keyword | Yes |
| 액션 | block, mask, flag | Yes |
| 스테이지 | input, output | Yes |
| 상세 | 짧은 분류기 문자열(예: 엔티티) | Yes |
| 매치된 부분 문자열 | jane@acme.com | ON일 때만 |
3. 하나의 구체적인 예
키에 연결된, 요청에서email을 마스킹하는 pii 규칙이 있는 guardrail을
봅시다. 호출자가 보냅니다:
[EMAIL]로 마스킹하고, 매치가 피드에
안착합니다. 그 매치가 무엇을 담는지는 전적으로 토글에 달려 있습니다:
Log raw content OFF (기본값)
Log raw content OFF (기본값)
매치는 다음을 기록합니다: 규칙 타입
pii, 액션 mask, 스테이지
input, 그리고 email 엔티티를 명시하는 상세 문자열.
jane@acme.com을 저장하지 않습니다. 요청에서 이메일이
마스킹되었음을 압니다; 피드에서 이메일을 다시 읽어낼 수는 없습니다.Log raw content ON
Log raw content ON
동일한 매치가 추가로 매치된 부분 문자열 —
jane@acme.com — 을
운반하므로, 분류 패스 중에 규칙이 정확히 무엇을 잡았는지 확인할 수
있습니다.4. 켜기 (그리고 비소급 보장)
Log raw content는 guardrail별 설정입니다. guardrail을 편집하는 것은 당신의 세션에서의 콘솔 액션이며 워크스페이스에서 **Developer+**를 요구합니다 — 최종/v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다.
Log raw content 활성화
Log raw content 토글을 켜고 저장합니다. 저장은 버전 관리된 히스토리
행을 쓰므로, 변경은 감사 가능하고 되돌릴 수 있습니다 —
버전 관리를 참조하세요.
5. 켜져 있을 때 무엇이 캡처되는가
Log raw content가 켜져 있으면, 엔진은 각 위반에 리터럴 매치된 텍스트를 첨부하며, 하나의 병리적 입력이 단일 매치 기록을 부풀리지 않도록 하는 두 개의 하드 상한이 있습니다:- 위반당 최대 32개의 매치된 항목.
- 각 항목은 256자로 상한 처리됨.
토글이 켜져 있어도, guardrail은 규칙이 실제로 매치한 텍스트만 결코
기록합니다. 주변 프롬프트와 응답의 나머지는 결코 Matches 피드에 복사되지
않습니다. 전체 요청/응답 페이로드는 guardrail 진단과는 별개의 관심사입니다.
6. 이미 캡처한 부분 문자열 제거하기
토글이 비소급이므로, 그것을 끄는 것은 이전 부분 문자열을 제자리에 남깁니다. 두 표면이 그것들을 지웁니다:| 제거하려는 것 | 방법 |
|---|---|
| 노이즈가 많은 매치 하나 | 거짓 양성으로 표시 — POST /api/guardrail/match/:id/mark-fp(워크스페이스 Admin), 또는 피드의 Mark false positive 액션. |
| 한 사용자에 대한 모든 guardrail 매치 | 사용자 자기 삭제는 30일 유예 윈도우를 트리거한 뒤, guardrail 매치, 요청 로그, firewall 이벤트를 통해 연쇄되는 PII 정화를 트리거합니다. Compliance를 참조하세요. |
7. 누가 무엇을 읽을 수 있는가
Matches 피드는 워크스페이스 범위 진단 데이터입니다. 읽기 액세스는 모든 활성 멤버에게 개방됩니다; 파괴적 거짓 양성 액션은 더 높이 게이팅됩니다:| 액션 | 라우트 | 역할 |
|---|---|---|
| 매치 나열 / 그룹화 / 통계 / 내보내기 | GET /api/guardrail/match* | Member |
| 단일 매치 상세 | GET /api/guardrail/match/:id | Member |
| 거짓 양성 표시 / 해제 | POST / DELETE /api/guardrail/match/:id/mark-fp | Admin |
| guardrail 편집(Log raw content 포함) | PUT /api/guardrail/ | Developer+ |
8. 실용적인 프라이버시 기본값
대부분의 워크스페이스에 올바른 형태는: Log raw content를 꺼둔 채로, guardrail을 메타데이터로 실행하고, 규칙이 왜 그런 방식으로 발동하는지 적극적으로 디버깅할 때 단일 정책에 대해 토글을 일시적으로 켜는 것입니다. 그 다음 다시 끄세요 — 새 매치는 즉시 부분 문자열 운반을 중단합니다.9. 다음으로 갈 곳
Matches 피드
기록된 모든 매치를 둘러보고, 그룹화하고, 필터링하고, 내보냅니다.
거짓 양성 튜닝
매치를 표시하고 정제하여 노이즈가 많은 규칙을 조용히 만듭니다.
버전 관리
모든 토글 전환은 버전 관리되고 되돌릴 수 있는 변경입니다.
Compliance
보존, 데이터 주체 삭제, 그리고 서명된 보고서.
