첫 guardrail 생성하기

모든 모델 호출 앞에 콘텐츠 정책을 두는 가장 빠른 방법은 guardrail 입니다 — 콘솔에서 한 번 작성하여 API 키에 연결하는, 워크스페이스 범위의 이름이 지정된 정책입니다. 그러면 게이트웨이는 다음 호출에서 요청 입력과 모델 출력을 검사합니다 — 재배포 없이, SDK 변경 없이. 이 페이지는 엔드투엔드 루프를 따라갑니다: guardrail 생성, 규칙 추가, 샌드박스에서 테스트, 키에 연결, 그리고 실제 요청 전송. 전체 엔진 레퍼런스 — 모든 규칙 타입, 필드, 라우트 — 는 Guardrails 레퍼런스를 참조하세요.

여기 모든 단계는 호스팅된 게이트웨이(api.orcarouter.ai)에 대한 콘솔 액션입니다. guardrail 구성은 당신 자신의 세션에서 실행되며; 최종 /v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다.

1. LLM guardrails를 다섯 단계로 추가하는 방법

전체 루프를 한눈에 — 각 단계는 아래에서 확장됩니다.

guardrail 생성

콘솔에서 Guardrails를 열고 New guardrail을 클릭합니다. 이름을 지정합니다(≤ 64자), 예: pii-shield.

규칙 추가

input 스테이지에서 mask 액션으로 PII detection 규칙을 하나 추가합니다.

샌드박스에서 테스트

Test 탭을 열고, 샘플을 붙여넣고, 정책을 로컬에서 실행합니다 — 업스트림 호출 없음, 쿼터 없음.

키에 연결

API 키를 편집하고 Guardrail 드롭다운에서 guardrail을 선택합니다. 바인딩은 키에 존재합니다.

요청 전송

그 키로 /v1/chat/completions를 호출합니다. 게이트웨이는 전달하기 전에 정책을 적용합니다.

2. guardrail 생성

콘솔에서 Guardrails를 열고 New guardrail을 클릭합니다. guardrail은 워크스페이스 범위의, 이름이 지정된 콘텐츠 정책입니다 — 게이트웨이가 요청 입력과 모델 출력에 대해 실행하는 순서가 있는 규칙 목록입니다. pii-shield로 이름을 지정하고 저장합니다.

New guardrail 분할 버튼은 곧바로 템플릿으로 열리기도 합니다. PII Shield 프리셋은 email, phone, ssn, credit_card, ip를 마스킹하는 단일 pii 규칙입니다. 프리셋을 적용하는 것은 씨앗이지 잠금이 아닙니다 — 이후에 자유롭게 편집하세요. 더 많은 시작점은 프리셋 템플릿을 둘러보세요.

3. 규칙 추가

각 규칙은 세 가지를 결정합니다 — 무엇을 찾을지(규칙 타입), 어디서 찾을지(스테이지), 그리고 무엇을 할지(액션). 규칙을 하나 추가합니다:

Type: PII detection (pii)
Stage: Input (요청)
Action: Mask — 매치 마스킹
Entities: email, phone, ssn

mask 액션에서 각 매치는 타입 지정된 태그로 대체됩니다 — 이메일은 [EMAIL]이, SSN은 [SSN]이 됩니다. 일곱 가지 규칙 타입(keyword, regex, pii, max_chars, external, llm_judge, grounding)과 다섯 가지 액션(block, mask, flag, annotate, spotlight)은 레퍼런스에서 다룹니다. 이 첫 guardrail에는 마스킹 규칙 하나면 충분합니다.

마스킹은 양쪽 스테이지에서 라이브입니다. 입력 스테이지 규칙은 모델이 보기 전에 요청을 마스킹하고; 출력 스테이지 규칙은 클라이언트가 받기 전에 모델의 응답을 마스킹합니다 — 비스트리밍 응답에서는 응답을, 스트리밍 응답에서는 청크 단위로. Block도 양쪽 스테이지에서 강제됩니다. 모델 응답을 게이트하고 싶다면, 규칙의 스테이지를 output(또는 both)으로 설정하세요; 출력 스테이지 규칙을 참조하세요.

4. 샌드박스에서 테스트

guardrail을 어떤 키에 연결하기 전에, 그것이 예상대로 동작함을 증명하세요. 에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고, input 스테이지를 선택한 뒤 실행합니다:

Reply to jane@acme.com please

샌드박스는 현재 정책을 로컬에서 평가하고 판정과 렌더링된 텍스트를 반환합니다:

Reply to [EMAIL] please

업스트림으로 아무것도 보내지 않고 아무것도 계량되지 않습니다. 입력 코퍼스에 대한 A/B 그리드는 한 탭 옆의 평가 하니스에 있습니다.

5. 키에 연결

guardrail은 키가 그것을 가리키기 전까지 아무것도 하지 않습니다. 바인딩 방법은 두 가지입니다:

키별

API 키를 편집하고 Guardrail 드롭다운에서 guardrail을 선택합니다. 이는 키에 guardrail_id를 설정합니다. 키에 연결하기를 참조하세요.

워크스페이스 기본값

명시적 연결이 없는 키가 상속하도록 guardrail을 워크스페이스 기본값으로 표시합니다. 계정 기본값을 참조하세요.

해석은 명시적이고 예측 가능합니다:

순서	무엇이 적용되는가
1	키의 명시적 `guardrail_id`(존재하고 활성화된 경우).
2	워크스페이스 기본값(키에 연결이 없는 경우).
3	없음 — 요청은 정책이 없는 워크스페이스와 바이트 단위로 동일합니다.

명시적 연결은 결코 조용히 폴백하지 않습니다. 연결된 guardrail을 비활성화하는 것이 오프 스위치입니다 — 워크스페이스 기본값으로 떨어지지 않습니다. (firewall 정책은 여기서 다릅니다; Guardrails vs. firewall을 참조하세요.)

6. 요청 전송

pii-shield에 바인딩된 키를 사용하여, 이전과 정확히 동일하게 OrcaRouter를 호출합니다 — SDK 변경 없음, 새 헤더 없음:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

게이트웨이는 전달하기 전에 이메일을 [EMAIL]로 마스킹합니다 — 업스트림 모델은 그 주소를 결코 보지 못합니다. 규칙의 액션을 block으로 바꾸면 그 엔티티를 담은 바로 다음 요청은 HTTP 400 guardrail_blocked로 거부됩니다. 차단된 요청은 쿼터를 소모하지 않으며(입력 차단은 계량 전에 발동하고; 출력 차단은 사전 소모된 쿼터를 환불합니다) skip-retry로 표시됩니다. 전체 응답 형태는 guardrail_blocked 오류를 참조하세요.

7. 다음으로 갈 곳

무엇이 발동했는지 보기

발동하는 모든 규칙은 match를 기록합니다 — 타입, 액션, 스테이지, 그리고 상세 문자열. 매치된 부분 문자열은 Log raw content가 켜져 있을 때만 기록됩니다(기본적으로 꺼짐). Matches 피드와 로깅 및 프라이버시를 참조하세요.

기본 이상을 마스킹

PII detection은 email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address(및 지역별 엔티티)를 다루며, 자신만의 것을 작성할 수 있습니다. PII Shield, 커스텀 PII 엔티티, 그리고 마스킹 형식을 참조하세요.

시크릿과 인젝션 잡기

시크릿 차단기 또는 프롬프트 인젝션 기초 프리셋을 추가하세요 — 후자는 검토를 위해 흔한 탈옥 문구를 플래그합니다. 문구가 아니라 의미론적으로 인젝션 의도를 잡으려면, 그 옆에 llm_judge 규칙을 추가하세요.

변경 롤백

모든 편집은 버전 히스토리 행을 씁니다. History를 열어 diff하고 되돌립니다. 버전 관리를 참조하세요.

텍스트뿐 아니라 툴 호출 게이트하기

guardrails는 콘텐츠를 검사합니다. 에이전트의 툴 호출을 관리하려면 — 파괴적 액션 거부, 비용 상한, 승인 요구 — Firewall을 사용하세요. AI 에이전트 보안과 위험한 툴 호출 위협에서 시작하세요.

완전한 엔진 — 규칙 필드, 외부 벤더, 평가 하니스, 그리고 전체 API — 은 Guardrails 레퍼런스를 읽거나, 에이전트 기준선을 위해 guardrails와 firewall을 함께 연결하려면 보안 퀵스타트를 읽으세요.

​1. LLM guardrails를 다섯 단계로 추가하는 방법

​2. guardrail 생성

​3. 규칙 추가

​4. 샌드박스에서 테스트

​5. 키에 연결

키별

워크스페이스 기본값

​6. 요청 전송

​7. 다음으로 갈 곳

1. LLM guardrails를 다섯 단계로 추가하는 방법

2. guardrail 생성

3. 규칙 추가

4. 샌드박스에서 테스트

5. 키에 연결

6. 요청 전송

7. 다음으로 갈 곳