1. 키를 연결하기 전에 ai guardrail 정책을 테스트하는 이유
콘텐츠 정책에는 두 가지 실패 모드가 있고, 그것들은 반대 방향으로 당깁니다:- 놓침 — 규칙이 발동하지 않아 공격이나 유출이 빠져나갑니다.
- 거짓 양성 — 규칙이 너무 광범위해서 양성 프롬프트가 차단되거나 마스킹됩니다.
두 도구 모두 전적으로 관리 API(
/api/guardrail/*)를 통해 당신의
세션에서 실행됩니다 — 결코 릴레이 키가 아닙니다. 텍스트를 로컬에서
평가하고 업스트림으로 아무것도 보내지 않으므로, 테스트 실행은 모델
쿼터를 소모하지 않습니다.2. Test 탭 — 샘플 하나, 즉시 판정
모든 guardrail 에디터에는 Test 탭이 있습니다. 샘플을 붙여넣고, 스테이지(input 또는 output)를 선택한 뒤, 정책의 현재 초안을
실행합니다. 전체 결정 — blocked, mutated, sanitized 텍스트,
그리고 violations 목록 — 을 돌려받으므로, 저장하기 전에 단일 규칙이
예상한 것을 하는지 증명할 수 있습니다.
Test 탭은 “이 한 규칙이 올바른 것을 했나”를 위한 것입니다. 한 번에 수백
개의 프롬프트에 걸쳐 정책을 측정하려면, Eval을 사용하세요.
3. Eval 탭 — 코퍼스에 대해 정책 채점
Eval 탭은 레이블된 샘플의 코퍼스에 대해 guardrail을 실행하고 그것이 어떻게 채점했는지 보고합니다: 전체 및 카테고리별 정밀도, 재현율, F1, 그리고 그것이 틀린 정확한 샘플.llm_judge 루브릭을 튜닝하거나, block 규칙이
알려진 공격 패밀리를 잡는지 증명하거나, 너무 광범위한 정규식이 좋은
트래픽을 거부하기 시작하기 전에 잡는 데 사용하세요.
실행은 진행하면서 진행 상황을 스트리밍하고(완료된 샘플당 하나의 이벤트)
나중에 다시 열 수 있는 실행 행을 영속화합니다 — queued → running → complete, 규칙이 실행 시점에 스냅샷되므로 guardrail에 대한 나중의 편집이
이전 실행의 판정을 결코 재작성하지 않습니다.
번들 코퍼스
게이트웨이에 내장된 레드팀 및 양성 세트 — 프롬프트 인젝션, 탈옥,
PII/시크릿, 다국어, 과도한 거부. 설정 없음.
커스텀 JSONL
당신의 실제 트래픽 형태에 대해 정책을 측정하도록 자신의 레이블된
세트를 업로드합니다.
4. 코퍼스가 어떻게 생겼는가 (JSONL)
코퍼스는 JSONL입니다 — 한 줄당 하나의 JSON 객체. 각 줄은 레이블된 샘플입니다: 평가할text, 그것이 속하는 stage, 그리고 정책이 생성해야
하는 expected_action. 러너는 정책의 실제 판정을 그 레이블과 비교하여
실행을 채점합니다.
필드 레퍼런스
필드 레퍼런스
| 필드 | 의미 |
|---|---|
id | 행당 고유. 필수 — 빈 id 행은 잘못된 형식으로 폐기됩니다. |
text | 평가할 프롬프트 또는 완성. 필수. |
stage | input 또는 output — 샘플을 통과시킬 스테이지의 규칙. |
expected_action | block, mask, flag, 또는 ""(양성 — 액션 기대 안 함). |
category | 카테고리별 메트릭을 버킷화하는 자유 형식 레이블. |
잘못된 형식의 행은 허용되지만 조용하지 않음
잘못된 형식의 행은 허용되지만 조용하지 않음
나쁜 JSON이나 누락된
id/text가 있는 행은 치명적이지 않고 건너뛰고
카운트됩니다 — 단일 오타가 전체 실행을 결코 날려버리지 않습니다.
로더는 긴 여러 줄 프롬프트를 위해 그 버퍼를 늘리므로, 하나의 JSON
문자열 안에 임베드된 줄바꿈이 있는 샘플이 정상적으로 파싱됩니다.5. 번들 코퍼스 — 레드팀 세트, 제로 설정
게이트웨이는 즉시 실행할 수 있는 큐레이션된 코퍼스 카탈로그를 제공합니다 — 각각이 선택기에 그 소스, 라이선스, 언어 커버리지, 그리고 샘플 미리보기를 운반합니다. 실제 트래픽이 보는 공격 표면을 아우르는 11개 카테고리로 그룹화됩니다:| 카테고리 | 무엇을 탐색하는가 |
|---|---|
prompt_injection | 명령 재정의와 사람이 작성한 인젝션 제출. |
jailbreak_single_turn | 실제 인더와일드 탈옥 + 학술 행동 기준선. |
jailbreak_encoded_multiturn | base64 / ROT13 / leetspeak / 페이로드 분할 탐색. |
indirect_agent | 툴 사용 에이전트에게 툴 출력을 통해 전달되는 인젝션. |
multilingual | 저자원 언어를 포함한 여러 언어에 걸친 원어민 레드팀 프롬프트. |
pii_secrets | 이메일, SSN, 카드, IBAN, API 키, AWS 키, JWT. |
toxicity | 독성 생성 프롬프트와 과도한 거부 대조. |
bias | 고정관념과 차별 탐색. |
hallucination | 적대적 사실성 / 충실도 세트. |
hazardous_knowledge | 이중 용도 화학 / 생물 / 사이버 지식 탐색. |
over_refusal_benign | 안전하지 않게 보이는 안전한 프롬프트 — 당신의 거짓 양성 회귀 가드. |
번들
owasp_llm_top10 코퍼스는 OWASP LLM Top 10 공격 패밀리(프롬프트
인젝션, 탈옥, 안전하지 않은 출력, 데이터 유출)를 다루는 레이블된 테스트
세트입니다 — 평가를 그것에 대해 실행할 코퍼스이지, 컴플라이언스 팩이
아닙니다. 정책을 구체화하는 프레임워크 팩은
compliance를 참조하세요.6. 하나의 구체적인 예 — PII Shield 프리셋 평가
PII Shield 프리셋(단일pii 규칙, mask)에서 시작했고 그것을 키에
바인딩하기 전에 모델이 내보낼 수 있는 식별자 형태를 잡는지 확인하고
싶다고 합시다. 번들 pii_smoke 코퍼스에 대해 실행하세요.
Eval은 읽기 레벨 액션입니다(POST /api/guardrail/:id/eval,
Member) — 실행 행을 영속화하지만 어떤 정책도 변경하지 않습니다:
expected vs got)을 명시하는 failures 목록 — 따라서 코퍼스를
grep하고 규칙을 고칠 수 있습니다. Runs 목록
(GET /api/guardrail/:id/eval/runs)에서 언제든지 다시 여세요.
7. 커스텀 코퍼스 — 자신의 트래픽에 대해 테스트
번들 세트는 정책이 알려진 공격을 처리함을 증명합니다. 그것이 당신의 프롬프트를 처리함을 증명하려면, 자신의 JSONL을 업로드하세요. 평가를 코퍼스로 가리키는 세 가지 방법이 있으며, 다음 순서로 해석됩니다:애드혹 업로드 (corpus_data)
애드혹 업로드 (corpus_data)
base64로 인코딩된 JSONL blob을 평가 요청에 인라인으로 전달하세요. 다른
모든 것을 이깁니다 — 워크스페이스에 저장하지 않고 초안 세트를
반복합니다.
저장된 코퍼스 (corpus_id)
저장된 코퍼스 (corpus_id)
POST /api/guardrail/eval/corpora(Developer+)를 통해 한 번
업로드한 뒤, 향후 실행에서 id로 참조합니다. 이름은
^[a-z][a-z0-9_]*$와 매치되어야 하고 번들 이름을 가릴 수 없습니다.번들 (corpus_name)
번들 (corpus_name)
§6에서처럼 제공되는 코퍼스 중 하나의 이름을 지정합니다.
GET /api/guardrail/eval/corpora(Member)로 그것들을 나열하고
검사하세요; 업로드와 삭제는 **Developer+**입니다.
8. 점수 읽기
러너는 모든 샘플을 혼동 행렬로 분류하고 그것에서 헤드라인 메트릭을 도출합니다:| 용어 | 의미 |
|---|---|
| Recall | 정책을 발동시켜야 하는 프롬프트 중, 얼마나 많이 했는가. 낮은 재현율 = 놓침. |
| Precision | 정책이 발동시킨 프롬프트 중, 얼마나 많이 발동시켜야 했는가. 낮은 정밀도 = 거짓 양성. |
| F1 | 조화 평균 — 한쪽으로 치우친 튜닝을 벌하는 하나의 숫자. |
9. 다음으로 갈 곳
거짓 양성 튜닝
failures 목록을 더 엄격하고, 더 낮은 노이즈의 정책으로 바꿉니다.
스트리밍 커버리지
어떤 스테이지/액션 조합이 SSE 트래픽에서 유지되는지 — 의존하기 전에
검증하세요.
Matches 피드
라이브가 되면, 발동하는 모든 규칙이 여기에 안착합니다 — 평가의 프로덕션
대응물.
버전 관리
평가가 마지막 변경이 회귀했다고 알려주면 정책을 diff하고 되돌립니다.
관련 guardrail 페이지
관련 guardrail 페이지
개요 ·
첫 guardrail 생성 ·
PII Shield ·
프롬프트 인젝션 ·
액션.
관련 개념 및 위협
관련 개념 및 위협
OrcaRouter가 트래픽을 검사하는 방법 ·
강제 모드 ·
프롬프트 인젝션 ·
탈옥 ·
데이터 유출.
전체 엔진 레퍼런스
전체 엔진 레퍼런스
Guardrails — 평가와 코퍼스 API를 포함한 모든
규칙 타입, 필드, 라우트.
