여기 모든 단계는 호스팅된 게이트웨이(
api.orcarouter.ai)에 대한 콘솔
액션입니다. guardrail 구성은 당신 자신의 세션에서 실행되며; 최종 /v1/*
호출만 sk-orca-... 릴레이 키를 사용합니다. guardrail을 생성하고
편집하려면 워크스페이스에서 **Developer+**가 필요합니다.1. LLM guardrails를 다섯 단계로 추가하는 방법
전체 루프를 한눈에 — 각 단계는 아래에서 확장됩니다.2. guardrail 생성
콘솔에서 Guardrails를 열고 New guardrail을 클릭합니다. guardrail은 워크스페이스 범위의, 이름이 지정된 콘텐츠 정책입니다 — 게이트웨이가 요청 입력과 모델 출력에 대해 실행하는 순서가 있는 규칙 목록입니다.pii-shield로 이름을 지정하고 저장합니다.
3. 규칙 추가
각 규칙은 세 가지를 결정합니다 — 무엇을 찾을지(규칙 타입), 어디서 찾을지(스테이지), 그리고 무엇을 할지(액션). 규칙을 하나 추가합니다:- Type: PII detection (
pii) - Stage: Input (요청)
- Action: Mask — 매치 마스킹
- Entities:
email,phone,ssn
[EMAIL]이, SSN은 [SSN]이 됩니다. 일곱 가지 규칙 타입(keyword,
regex, pii, max_chars, external, llm_judge, grounding)과 다섯
가지 액션(block, mask, flag, annotate, spotlight)은
레퍼런스에서 다룹니다. 이 첫
guardrail에는 마스킹 규칙 하나면 충분합니다.
마스킹은 양쪽 스테이지에서 라이브입니다. 입력 스테이지 규칙은 모델이
보기 전에 요청을 마스킹하고; 출력 스테이지 규칙은 클라이언트가 받기 전에
모델의 응답을 마스킹합니다 — 비스트리밍 응답에서는 응답을, 스트리밍
응답에서는 청크 단위로. Block도 양쪽 스테이지에서 강제됩니다. 모델
응답을 게이트하고 싶다면, 규칙의 스테이지를
output(또는 both)으로
설정하세요;
출력 스테이지 규칙을 참조하세요.4. 샌드박스에서 테스트
guardrail을 어떤 키에 연결하기 전에, 그것이 예상대로 동작함을 증명하세요. 에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고,input
스테이지를 선택한 뒤 실행합니다:
5. 키에 연결
guardrail은 키가 그것을 가리키기 전까지 아무것도 하지 않습니다. 바인딩 방법은 두 가지입니다:키별
API 키를 편집하고 Guardrail 드롭다운에서 guardrail을 선택합니다.
이는 키에
guardrail_id를 설정합니다.
키에 연결하기를 참조하세요.워크스페이스 기본값
명시적 연결이 없는 키가 상속하도록 guardrail을 워크스페이스
기본값으로 표시합니다.
계정 기본값을 참조하세요.
| 순서 | 무엇이 적용되는가 |
|---|---|
| 1 | 키의 명시적 guardrail_id(존재하고 활성화된 경우). |
| 2 | 워크스페이스 기본값(키에 연결이 없는 경우). |
| 3 | 없음 — 요청은 정책이 없는 워크스페이스와 바이트 단위로 동일합니다. |
6. 요청 전송
pii-shield에 바인딩된 키를 사용하여, 이전과 정확히 동일하게 OrcaRouter를
호출합니다 — SDK 변경 없음, 새 헤더 없음:
[EMAIL]로 마스킹합니다 — 업스트림
모델은 그 주소를 결코 보지 못합니다. 규칙의 액션을 block으로 바꾸면
그 엔티티를 담은 바로 다음 요청은 HTTP 400 guardrail_blocked로
거부됩니다. 차단된 요청은 쿼터를 소모하지 않으며(입력 차단은 계량
전에 발동하고; 출력 차단은 사전 소모된 쿼터를 환불합니다)
skip-retry로 표시됩니다. 전체 응답 형태는
guardrail_blocked 오류를
참조하세요.
7. 다음으로 갈 곳
무엇이 발동했는지 보기
무엇이 발동했는지 보기
발동하는 모든 규칙은 match를 기록합니다 — 타입, 액션, 스테이지,
그리고 상세 문자열. 매치된 부분 문자열은 Log raw content가 켜져
있을 때만 기록됩니다(기본적으로 꺼짐).
Matches 피드와
로깅 및 프라이버시를
참조하세요.
기본 이상을 마스킹
기본 이상을 마스킹
PII detection은
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address(및 지역별 엔티티)를 다루며, 자신만의 것을 작성할 수
있습니다. PII Shield,
커스텀 PII 엔티티,
그리고 마스킹 형식을
참조하세요.시크릿과 인젝션 잡기
시크릿과 인젝션 잡기
시크릿 차단기 또는
프롬프트 인젝션 기초
프리셋을 추가하세요 — 후자는 검토를 위해 흔한 탈옥 문구를
플래그합니다. 문구가 아니라 의미론적으로 인젝션 의도를 잡으려면,
그 옆에
llm_judge 규칙을
추가하세요.변경 롤백
변경 롤백
모든 편집은 버전 히스토리 행을 씁니다. History를 열어 diff하고
되돌립니다. 버전 관리를
참조하세요.
텍스트뿐 아니라 툴 호출 게이트하기
텍스트뿐 아니라 툴 호출 게이트하기
guardrails는 콘텐츠를 검사합니다. 에이전트의 툴 호출을 관리하려면 —
파괴적 액션 거부, 비용 상한, 승인 요구 —
Firewall을 사용하세요.
AI 에이전트 보안과
위험한 툴 호출 위협에서
시작하세요.
