1. 프리셋 하나로 하는 브랜드 안전 ai
guardrail 템플릿 선택기의 Brand 카테고리는 키워드 거부 목록의 세트입니다. 각 프리셋은 클릭 한 번으로 적용한 뒤 편집하는 단일keyword
규칙입니다 — 씨앗 용어를 당신 자신의 목록으로 교체하세요. 모델 호출 없음,
네트워크 홉 없음, SDK 변경 없음: 정책은 게이트웨이에 존재하고, 당신의 앱은
이전과 정확히 동일하게 /v1/chat/completions를 계속 호출합니다.
욕설
요청의 욕설이나 금지어를 차단하는 거부 목록 — 또는 대신 그것들을
마스킹하는 mask 변형.
경쟁사 언급
나열하는 이름의 모든 언급을 차단(또는 플래그)합니다 — 코파일럿이
경쟁사를 띄우는 것을 막으세요.
아동 안전
당신 자신의 기준에서 채우는 아동 안전 용어에 대한 보수적 거부 목록으로,
요청에서 차단됩니다.
2. 제공되는 그대로의 Brand 프리셋
콘솔 Guardrails 뷰에서 New guardrail 분할 버튼을 열고 Brand 템플릿 카테고리를 선택합니다. 거기에 다섯 개의 씨앗이 있습니다:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
단일
keyword 규칙, 스테이지 input, 액션 block. 플레이스홀더
용어와 함께 제공됩니다 — 목록을 당신의 실제 금지어, 경쟁사 이름, 또는
금지 문구로 편집하세요. 매치는 프롬프트가 게이트웨이를 떠나기 전에
HTTP 400 guardrail_blocked를 반환합니다.Profanity Filter (mask)
Profanity Filter (mask)
동일한 거부 목록이지만, 액션 mask와 스테이지 both — 거부 목록의
단어가 호출을 거부하는 대신
[REDACTED]로 대체됩니다. 요청을 거부하기
보다 정화되어 통과하기를 원할 때의 더 부드러운 대안.Profanity Multilingual
Profanity Multilingual
시장별 플레이스홀더(zh, es, fr, de, ja, ar)로 씨앗이 된
keyword
block 규칙. 각각을 당신의 정책이 금지하는 지역별 용어로 교체하세요 —
씨앗 용어는 의도적으로 일반적입니다.Competitor Mentions
Competitor Mentions
단일 플레이스홀더로 씨앗이 된, 스테이지 input, 액션 block의
keyword 규칙. 경쟁사 이름을 추가하세요; 트래픽을 거부하지 않고 언급을
모니터링하려면 액션을 flag로 전환하세요.Child Safety Keywords
Child Safety Keywords
보수적
keyword 거부 목록, 스테이지 input, 액션 block. 씨앗은
의도적인 플레이스홀더입니다 — 그것을 의존하기 전에 당신 자신의 안전
정책이나 기준의 정확한 용어로 채우세요.프리셋은 씨앗이지 잠금이 아닙니다. 모든 Brand 프리셋은 규칙이 기본
상태로 유효하도록 플레이스홀더 용어와 함께 제공됩니다 — 키를 연결하기
전에 당신의 브랜드를 위해 거부 목록을 편집할 것으로 기대됩니다. 프리셋은
의도적으로 실제 금지어나 아동 안전 목록을 제공하지 않습니다.
3. 콘솔에서 Brand 프리셋 적용하기
여기 모든 단계는 당신의 세션에서의 콘솔 액션입니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다. 최종/v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다.
템플릿 열기
콘솔에서 Guardrails를 열고, New guardrail 분할 버튼을 클릭한
뒤, Brand 템플릿 카테고리에서 Competitor Mentions(또는 임의의
Brand 프리셋)를 선택합니다.
거부 목록 편집
씨앗 플레이스홀더를 당신의 실제 용어로 교체하세요 — 예: 경쟁사 이름.
guardrail에 이름을 지정하고(≤ 64자),
brand-safety 같은, 저장합니다.테스트
Test 탭을 열고,
input 스테이지에서 샘플을 붙여넣고, 정책을
로컬에서 실행합니다 — 업스트림 호출 없음, 쿼터 없음
(§5 참조).4. 하나의 구체적인 예
brand-safety라는 이름의 경쟁사 언급 guardrail이 키에 연결되어 있습니다.
씨앗 플레이스홀더는 실제 이름 Acme로 교체되었습니다. 이전과 정확히
동일하게 게이트웨이를 호출합니다 — 새 헤더 없음:
keyword 규칙이 요청에서 Acme를 매치하고, 게이트웨이는 무언가가
업스트림 모델에 도달하기 전에 — 발동한 guardrail과 규칙을 명시하며 —
호출을 HTTP 400 guardrail_blocked로 거부합니다.
프롬프트를 거부하기보다 정화하고 싶을 때 욕설에는 block보다 mask를
선호하세요 — 거부 목록의 단어가 [REDACTED]로 렌더링되고 요청이
통과합니다. 차단을 시작하기 전에 노출을 측정하고 싶을 때 경쟁사 언급에는
flag를 선호하세요. 액션 페이지가
전체 block / mask / flag 트레이드오프를 다룹니다.
5. 연결하기 전에 테스트하기
어떤 키가 그것을 가리키기 전에 거부 목록이 예상대로 동작함을 증명하세요. 에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고,input 스테이지를
선택한 뒤 실행합니다:
6. 무엇이 발동했는지 보기
발동하는 모든 규칙은 match를 기록합니다 — 규칙 타입, 액션, 스테이지, 그리고 상세 문자열 — 워크스페이스 Matches 피드에 표시됩니다 (GET /api/guardrail/match, Member). 매치된 부분 문자열 자체(금지어,
경쟁사 이름)는 Log raw content가 켜져 있을 때 만 기록되며, 이는
기본적으로 꺼져 있습니다.
아동 안전 거부 목록의 경우, Log raw content를 꺼둔 채로 두는 것이 보통
핵심입니다: 용어를 당신 자신의 텔레메트리에 다시 복사하지 않고도 용어가
차단되었다는 사실과 그것이 얼마나 자주인지 볼 수 있습니다. 분류를 위해
부분 문자열이 필요할 때만 guardrail별로 켜세요; 이 설정은 소급되지
않습니다. Matches 피드와
로깅 및 프라이버시를
참조하세요.
7. 다음으로 갈 곳
민감어 필터
모든 Brand 프리셋 뒤의 키워드 거부 목록 메커니즘을 심층적으로.
시크릿 차단
Secrets Blocker 프리셋으로 API 키와 자격 증명을 잡습니다.
거짓 양성 튜닝
Matches 피드에서 거짓 양성을 표시하고 거부 목록을 조입니다.
템플릿
모든 카테고리에 걸친 전체 프리셋 라이브러리.
