브랜드 및 톤 안전

당신은 고객 앞에서 AI를 운영하고 당신의 브랜드가 걸려 있습니다. 지원 봇은 결코 욕해서는 안 되고, 마케팅 코파일럿은 결코 경쟁사 이름을 대서는 안 되며, 당신의 트래픽 안 어떤 것도 아동 안전 용어를 건드려서는 안 됩니다. 브랜드 및 톤 안전은 셋 모두를 강제하는 가장 빠른 방법입니다: Brand guardrail 프리셋 카테고리는 키에 연결하는 키워드 거부 목록을 제공하며, 게이트웨이는 모든 호출이 OpenAI, Anthropic, 또는 Google에 도달하기 전에 그것들에 대해 검사합니다. 이것은 브랜드 안전 유스 케이스에 초점을 둔 랜딩입니다. 전체 엔진 — 모든 규칙 타입, 필드, 라우트 — 은 Guardrails 레퍼런스를 참조하세요.

1. 프리셋 하나로 하는 브랜드 안전 ai

guardrail 템플릿 선택기의 Brand 카테고리는 키워드 거부 목록의 세트입니다. 각 프리셋은 클릭 한 번으로 적용한 뒤 편집하는 단일 keyword 규칙입니다 — 씨앗 용어를 당신 자신의 목록으로 교체하세요. 모델 호출 없음, 네트워크 홉 없음, SDK 변경 없음: 정책은 게이트웨이에 존재하고, 당신의 앱은 이전과 정확히 동일하게 /v1/chat/completions를 계속 호출합니다.

욕설

요청의 욕설이나 금지어를 차단하는 거부 목록 — 또는 대신 그것들을 마스킹하는 mask 변형.

경쟁사 언급

나열하는 이름의 모든 언급을 차단(또는 플래그)합니다 — 코파일럿이 경쟁사를 띄우는 것을 막으세요.

아동 안전

당신 자신의 기준에서 채우는 아동 안전 용어에 대한 보수적 거부 목록으로, 요청에서 차단됩니다.

셋 모두 결정적 키워드 매치입니다 — 업스트림 호출 전에 요청에서 실행되는 대소문자를 구분하지 않는 부분 문자열 스캔. 추가 비용이 들지 않고 모델 뒤에서 결코 직렬화되지 않습니다.

2. 제공되는 그대로의 Brand 프리셋

콘솔 Guardrails 뷰에서 New guardrail 분할 버튼을 열고 Brand 템플릿 카테고리를 선택합니다. 거기에 다섯 개의 씨앗이 있습니다:

Profanity / Brand Safety (block)

단일 keyword 규칙, 스테이지 input, 액션 block. 플레이스홀더 용어와 함께 제공됩니다 — 목록을 당신의 실제 금지어, 경쟁사 이름, 또는 금지 문구로 편집하세요. 매치는 프롬프트가 게이트웨이를 떠나기 전에 HTTP 400 guardrail_blocked를 반환합니다.

Profanity Filter (mask)

동일한 거부 목록이지만, 액션 mask와 스테이지 both — 거부 목록의 단어가 호출을 거부하는 대신 [REDACTED]로 대체됩니다. 요청을 거부하기 보다 정화되어 통과하기를 원할 때의 더 부드러운 대안.

Profanity Multilingual

시장별 플레이스홀더(zh, es, fr, de, ja, ar)로 씨앗이 된 keyword block 규칙. 각각을 당신의 정책이 금지하는 지역별 용어로 교체하세요 — 씨앗 용어는 의도적으로 일반적입니다.

Competitor Mentions

단일 플레이스홀더로 씨앗이 된, 스테이지 input, 액션 block의 keyword 규칙. 경쟁사 이름을 추가하세요; 트래픽을 거부하지 않고 언급을 모니터링하려면 액션을 flag로 전환하세요.

Child Safety Keywords

보수적 keyword 거부 목록, 스테이지 input, 액션 block. 씨앗은 의도적인 플레이스홀더입니다 — 그것을 의존하기 전에 당신 자신의 안전 정책이나 기준의 정확한 용어로 채우세요.

프리셋은 씨앗이지 잠금이 아닙니다. 모든 Brand 프리셋은 규칙이 기본 상태로 유효하도록 플레이스홀더 용어와 함께 제공됩니다 — 키를 연결하기 전에 당신의 브랜드를 위해 거부 목록을 편집할 것으로 기대됩니다. 프리셋은 의도적으로 실제 금지어나 아동 안전 목록을 제공하지 않습니다.

3. 콘솔에서 Brand 프리셋 적용하기

여기 모든 단계는 당신의 세션에서의 콘솔 액션입니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다. 최종 /v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다.

템플릿 열기

콘솔에서 Guardrails를 열고, New guardrail 분할 버튼을 클릭한 뒤, Brand 템플릿 카테고리에서 Competitor Mentions(또는 임의의 Brand 프리셋)를 선택합니다.

거부 목록 편집

씨앗 플레이스홀더를 당신의 실제 용어로 교체하세요 — 예: 경쟁사 이름. guardrail에 이름을 지정하고(≤ 64자), brand-safety 같은, 저장합니다.

테스트

Test 탭을 열고, input 스테이지에서 샘플을 붙여넣고, 정책을 로컬에서 실행합니다 — 업스트림 호출 없음, 쿼터 없음 (§5 참조).

키 연결

API 키를 편집하고 Guardrail 드롭다운에서 brand-safety를 선택하거나(키에 guardrail_id 설정), 워크스페이스 기본값으로 표시합니다. 키에 연결하기와 계정 기본값을 참조하세요.

4. 하나의 구체적인 예

brand-safety라는 이름의 경쟁사 언급 guardrail이 키에 연결되어 있습니다. 씨앗 플레이스홀더는 실제 이름 Acme로 교체되었습니다. 이전과 정확히 동일하게 게이트웨이를 호출합니다 — 새 헤더 없음:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

keyword 규칙이 요청에서 Acme를 매치하고, 게이트웨이는 무언가가 업스트림 모델에 도달하기 전에 — 발동한 guardrail과 규칙을 명시하며 — 호출을 HTTP 400 guardrail_blocked로 거부합니다.

block 판정은 쿼터를 소모하지 않습니다. 입력 스테이지 차단은 사용량이 계량되기 전에 발동하고, 요청은 skip-retry로 표시됩니다 — 동일한 프롬프트를 다른 채널에 대해 다시 실행해도 그저 다시 차단될 뿐입니다. guardrail_blocked 오류를 참조하세요.

프롬프트를 거부하기보다 정화하고 싶을 때 욕설에는 block보다 mask를 선호하세요 — 거부 목록의 단어가 [REDACTED]로 렌더링되고 요청이 통과합니다. 차단을 시작하기 전에 노출을 측정하고 싶을 때 경쟁사 언급에는 flag를 선호하세요. 액션 페이지가 전체 block / mask / flag 트레이드오프를 다룹니다.

5. 연결하기 전에 테스트하기

어떤 키가 그것을 가리키기 전에 거부 목록이 예상대로 동작함을 증명하세요. 에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고, input 스테이지를 선택한 뒤 실행합니다:

Write a tweet praising Acme over us

샌드박스는 현재 정책을 로컬에서 평가하고 판정을 반환합니다 — 업스트림으로 아무것도 보내지 않고, 아무것도 계량되지 않습니다. 표현 방식의 코퍼스에 대한 스윕은 한 탭 옆의 평가 하니스에 있습니다.

키워드 매치는 대소문자를 구분하지 않는 부분 문자열 스캔이므로, class는 classic 안에서도 매치합니다. 거부 목록 항목을 구체적으로 유지하고, 실제 트래픽을 보게 되면 Matches 피드에서 거짓 양성을 튜닝하세요.

6. 무엇이 발동했는지 보기

발동하는 모든 규칙은 match를 기록합니다 — 규칙 타입, 액션, 스테이지, 그리고 상세 문자열 — 워크스페이스 Matches 피드에 표시됩니다 (GET /api/guardrail/match, Member). 매치된 부분 문자열 자체(금지어, 경쟁사 이름)는 Log raw content가 켜져 있을 때 만 기록되며, 이는 기본적으로 꺼져 있습니다.

아동 안전 거부 목록의 경우, Log raw content를 꺼둔 채로 두는 것이 보통 핵심입니다: 용어를 당신 자신의 텔레메트리에 다시 복사하지 않고도 용어가 차단되었다는 사실과 그것이 얼마나 자주인지 볼 수 있습니다. 분류를 위해 부분 문자열이 필요할 때만 guardrail별로 켜세요; 이 설정은 소급되지 않습니다. Matches 피드와 로깅 및 프라이버시를 참조하세요.

Brand guardrail에 대한 모든 편집은 동일한 트랜잭션에서 버전 관리된 히스토리 행을 씁니다 — 임의의 두 버전을 diff하고 History 뷰에서 되돌립니다. 버전 관리를 참조하세요.

7. 다음으로 갈 곳

민감어 필터

모든 Brand 프리셋 뒤의 키워드 거부 목록 메커니즘을 심층적으로.

시크릿 차단

Secrets Blocker 프리셋으로 API 키와 자격 증명을 잡습니다.

거짓 양성 튜닝

Matches 피드에서 거짓 양성을 표시하고 거부 목록을 조입니다.

템플릿

모든 카테고리에 걸친 전체 프리셋 라이브러리.

Brand 프리셋은 콘텐츠를 게이트합니다. 악의적인 프롬프트로 브랜드에서 벗어나게 유도된 모델을 막으려면, 그것들을 프롬프트 인젝션 guardrail과 탈옥 위협과 짝지으세요. 완전한 엔진 — 스테이지, 고급 규칙, 라우트 — 은 Guardrails 레퍼런스를 읽으세요.

​1. 프리셋 하나로 하는 브랜드 안전 ai

욕설

경쟁사 언급

아동 안전

​2. 제공되는 그대로의 Brand 프리셋

​3. 콘솔에서 Brand 프리셋 적용하기

​4. 하나의 구체적인 예

​5. 연결하기 전에 테스트하기

​6. 무엇이 발동했는지 보기

​7. 다음으로 갈 곳

민감어 필터

시크릿 차단

거짓 양성 튜닝

템플릿

1. 프리셋 하나로 하는 브랜드 안전 ai

2. 제공되는 그대로의 Brand 프리셋

3. 콘솔에서 Brand 프리셋 적용하기

4. 하나의 구체적인 예

5. 연결하기 전에 테스트하기

6. 무엇이 발동했는지 보기

7. 다음으로 갈 곳