guardrail 매치 검토 — Matches 피드

guardrail을 연결했고 이제 그것이 무엇을 잡았는지 보고 싶습니다. Matches 피드는 OrcaRouter의 guardrail 매치 로그입니다 — 규칙이 발동할 때마다(block, mask, flag, annotate, 또는 spotlight), 게이트웨이는 콘솔에서 검토하거나 API로 가져올 수 있는 매치를 기록합니다. “어제 PII 규칙이 무엇을 마스킹했나?”, “어느 키가 secrets blocker를 발동하나?”, “이 규칙이 실제 트래픽에서 발동하는가 아니면 그냥 노이즈인가?”에 답하는 방법입니다. 이 페이지는 매치를 읽고 분류하는 것에 초점을 둔 가이드입니다. 규칙이 어떻게 작성되고 각 액션이 무엇을 하는지는 Guardrails 레퍼런스를 참조하세요.

1. guardrail 매치 로그가 기록하는 것

발동하는 모든 규칙은 워크스페이스 범위 피드에 하나의 매치를 씁니다(GET /api/guardrail/match, 모든 Member에게 개방). 피드는 당신의 요청 로그와 분리됩니다 — 전체 요청 본문이 아니라 guardrail이 한 것만 저장합니다. 각 매치는 다음을 기록합니다:

판정

rule_type(keyword, regex, pii, max_chars, external, llm_judge, grounding), 유효 action(block / mask / flag / annotate / spotlight), 그리고 stage(input 또는 output) — 따라서 무엇이 발동했고 무엇을 했는지 즉시 알 수 있습니다.

어디서 발동했는지

guardrail_name, 발동한 rule_label, 그리고 요청 컨텍스트: model_name, 그것이 탄 token, 호출자 ip, 그리고 당신의 요청 로그로 다시 결합되는 request_id.

상세 문자열

detail — 위반에 대한 엔진의 짧은 사람이 읽을 수 있는 메모(예: 어느 엔티티나 패턴이 발동했는지), 항상 기록됨.

매치된 부분 문자열 — 옵트인할 때만

matched는 guardrail의 Log raw content 토글이 켜져 있을 때 만 채워집니다. 기본적으로 꺼져 있으므로, 기본적으로 피드는 규칙이 발동했고 그 이유를 알려주지만, 민감한 문자열 자체는 결코 저장하지 않습니다.

원시 콘텐츠는 옵트인이고 소급되지 않습니다. Log raw content가 꺼져 있으면(기본값), matched 필드는 비어 있습니다 — 피드는 판정과 detail을 기록하고, 규칙을 발동시킨 이메일 주소, 시크릿, 또는 PII는 결코 기록하지 않습니다. 분류를 위해 부분 문자열이 필요할 때만 guardrail별로 켜세요; 그것을 활성화한 후에 기록된 매치에 적용됩니다. 로깅 및 프라이버시를 참조하세요.

2. 매치 로그 나열 및 필터링

기본 목록 뷰는 커서 페이지네이션, 최신순, 그리고 당신의 워크스페이스 범위입니다. 쿼리 파라미터로 좁히세요 — 콘솔은 이것들을 필터 칩으로 노출합니다:

파라미터	필터 기준
`guardrail_id`, `rule_type`, `action`, `stage`	판정
`token_id`, `model_name`, `request_id`	요청 컨텍스트
`days` / `start_at` + `end_at`, `hide_fp`	윈도우와 거짓 양성 상태

콘솔 세션 토큰을 사용한, 전형적인 “이번 주에 secrets guardrail이 차단한 모든 것을 보여줘” 읽기:

curl "https://api.orcarouter.ai/api/guardrail/match?guardrail_id=42&action=block&days=7" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"

/api/guardrail/* 같은 관리 라우트는 릴레이 키가 아니라 당신의 콘솔 세션 / 액세스 토큰으로 인증합니다. sk-orca-... 키는 /v1/* 모델 호출 전용입니다. 일상 사용에서는 Guardrails 페이지의 Matches 탭에서 곧바로 피드를 읽게 됩니다.

3. 요청별 그룹화

단일 요청이 한 번에 여러 규칙을 발동시킬 수 있습니다 — 입력 PII 마스크 그리고 최대 길이 상한, 예를 들어. 그룹화된 뷰 (GET /api/guardrail/match/grouped, Member)는 request_id별로 매치를 접으므로, 동일한 호출에 대해 다섯 행을 스크롤하는 대신 위반 요청당 한 행을 그 매치가 인라인으로 접힌 채로 봅니다. 그룹당 인라인으로 표시되는 매치 수를 inline_limit(기본 5)로 튜닝하세요.

4. 통계와 트렌드 스트립

통계 엔드포인트(GET /api/guardrail/match/stats, Member)는 Matches 탭의 카운트 스트립과 차트를 구동합니다 — days 윈도우에 걸친 합계, 선택적으로 group_by로 분해:

`group_by`	분해
(생략)	합계만
`rule_type`	어느 규칙 타입이 가장 많이 발동하는지
`guardrail_id`	어느 guardrail이 활동을 차지하는지

한 요청에 대한 상수 시간 매치 카운트를 얻으려면 request_id를 전달하세요(요청 로그 교차 링크에서 사용됨). 여기가 guardrail별 사용량, 액션 혼합, 거짓 양성 비율이 있는 곳입니다 — 원시 목록을 페이징하기보다 그것을 슬라이스하세요.

5. 감사 추적을 위한 내보내기

콘솔 밖에서 매치가 필요할 때 — 증거 팩, 스프레드시트, 다운스트림 SIEM — GET /api/guardrail/match/export(Member)는 당신의 현재 필터 세트를 CSV 또는 JSON으로 스트리밍합니다:

curl "https://api.orcarouter.ai/api/guardrail/match/export?format=csv&guardrail_id=42&days=30" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -o guardrail-matches.csv

내보내기는 피드가 기록하는 것과 동일한 열을 운반합니다 — 시간, guardrail, 규칙 타입과 레이블, 스테이지, 액션, 모델, 토큰, 상세, 매치된 부분 문자열(기록 시점에 원시 콘텐츠 캡처가 켜져 있었을 경우에만), 요청 id, ip, 그리고 거짓 양성 타임스탬프.

CSV는 수식 인젝션 안전입니다: 그렇지 않으면 스프레드시트 수식으로 읽힐 모든 셀이 중화되므로, Excel이나 Sheets에서 내보내기를 열어도 매치된 부분 문자열을 통해 몰래 들어온 페이로드를 실행할 수 없습니다.

6. 거짓 양성 분류

모든 매치가 실제 히트는 아닙니다. 규칙이 양성 트래픽에서 발동할 때, 워크스페이스 Admin은 매치를 거짓 양성으로 표시할 수 있습니다(POST /api/guardrail/match/:id/mark-fp); 역 DELETE /api/guardrail/match/:id/mark-fp는 그것을 해제합니다. 표시는 피드의 나머지가 Member 읽기 가능한데도 Admin 전용입니다 — 분류는 권한 있는 액션입니다. 거짓 양성을 표시하면 두 가지를 합니다: 매치를 태그하고(따라서 hide_fp=true가 그것을 피드에서 걸러냄) 발견 사항을 기억하므로 동일한 콘텐츠에 대한 동일한 규칙이 향후 요청에서 건너뛰어집니다. 강제를 복원하려면 표시를 해제하세요. 노이즈가 많은 규칙을 튜닝하는 더 넓은 워크플로는 거짓 양성 튜닝을 참조하세요.

매치는 진단 데이터이지 강제 결정이 아닙니다. 요청이 차단, 마스킹, 또는 단지 플래그되었는지는 요청 시점의 액션에 의해 이미 정해져 있습니다 — 피드는 사후 기록입니다. 거짓 양성을 표시하는 것은 향후 동작을 변경하며, 이미 일어난 호출은 결코 변경하지 않습니다.

7. 매치가 어디서 오는가

매치는 릴레이 경로에서 guardrail 엔진에 의해 생성되므로, 피드는 당신의 연결된 정책이 한 것을 정확히 반영합니다:

입력 스테이지 매치는 모델이 보기 전에 게이트웨이가 검사한 것을 기록합니다 — 입력 스테이지를 참조하세요.
출력 스테이지 매치는 응답에서 검사한 것을 기록합니다 — 출력 스테이지를 참조하세요.
차단된 요청은 호출자에게 HTTP 400 guardrail_blocked로도 표시됩니다; 매치는 그것의 서버 측 기록입니다.

요청에 대해 guardrail이 해석되지 않으면, 아무것도 검사되지 않고 아무것도 피드에 안착하지 않습니다 — 동작은 기능을 한 번도 활성화하지 않은 워크스페이스와 동일합니다. 정책이 애초에 트래픽 앞에 어떻게 놓이는지는 키에 연결하기와 계정 기본값을 참조하세요.

8. 관련

Guardrails 레퍼런스

전체 엔진: 규칙 타입, 스테이지, 액션, 프리셋, 평가 하니스.

로깅 및 프라이버시

Log raw content 토글과 피드가 무엇을 저장하고 — 안 하는지.

거짓 양성 튜닝

피드를 사용하여 정책을 약화시키지 않고 노이즈가 많은 규칙을 찾아 조용히 만듭니다.

버전 관리

피드가 변경이 잘못 발동했음을 보여줄 때 guardrail을 diff하고 되돌립니다.

게이트웨이가 트래픽을 어떻게 검사하는지의 더 큰 그림은 OrcaRouter가 검사하는 방법과 Guardrails vs firewall을 참조하세요.

​1. guardrail 매치 로그가 기록하는 것

​2. 매치 로그 나열 및 필터링

​3. 요청별 그룹화

​4. 통계와 트렌드 스트립

​5. 감사 추적을 위한 내보내기

​6. 거짓 양성 분류

​7. 매치가 어디서 오는가

​8. 관련

Guardrails 레퍼런스

로깅 및 프라이버시

거짓 양성 튜닝

버전 관리

1. guardrail 매치 로그가 기록하는 것

2. 매치 로그 나열 및 필터링

3. 요청별 그룹화

4. 통계와 트렌드 스트립

5. 감사 추적을 위한 내보내기

6. 거짓 양성 분류

7. 매치가 어디서 오는가

8. 관련