메인 콘텐츠로 건너뛰기
AKIA... 키를 운반하는 프롬프트, 붙여넣은 .env, 자신의 sk-... 토큰을 되울리는 에이전트 — 그 어느 것이든 OpenAI, Anthropic, 또는 Google에 평문으로 라이브 자격 증명을 보낼 수 있으며, 그것은 그들의 로그와 당신의 로그에 안착합니다. Secrets Blocker는 그것을 게이트웨이에서 멈춥니다: 요청에서 자격 증명 형태를 스캔하고 단 한 바이트도 게이트웨이를 떠나기 전에 HTTP 400으로 호출을 거부하는 원클릭 guardrail 프리셋입니다. 이것은 시크릿 유출 유스 케이스에 초점을 둔 랜딩입니다. 전체 guardrail 엔진 — 모든 규칙 타입, 필드, 라우트 — 은 Guardrails 레퍼런스를 참조하세요.

1. 프리셋 하나로 api key 유출 llm 흐름 방지

api key 유출 llm 방지 배관의 핵심 전체는 자격 증명을 이미 프로바이더의 요청 로그에 들어간 후가 아니라, 업스트림 호출 전에 잡는 것입니다. Secrets Blocker 프리셋이 정확히 그것을 합니다. 그것은 입력 스테이지 block 규칙의 작은 guardrail로, 각각이 잘 알려진 자격 증명 형태에 대한 정규식입니다:
AKIA 뒤에 16개의 대문자 영숫자 — 정식 AWS access-key-id 형태.
sk- 접두사 뒤에 긴 토큰 본문 — OpenAI와 여러 비슷한 프로바이더 키가 사용하는 형태.
ghp_ 접두사 뒤에 36자 본문.
어느 규칙이든 매치되면, 요청은 차단됩니다 — 게이트웨이는 그것을 결코 전달하지 않습니다. 정책은 애플리케이션이 아니라 게이트웨이에 존재하므로, 당신의 앱은 SDK 변경 없이, 재배포 없이 이전과 정확히 동일하게 /v1/chat/completions를 계속 호출합니다.
입력 스테이지, 계량 전. Secrets Blocker는 당신이 보내는 것을 검사합니다. 매치는 모델이 호출되기 전에 호출을 거부하므로, 자격 증명이 프로바이더에 결코 도달하지 않고 차단된 요청은 쿼터를 소모하지 않습니다. 모델이 클라이언트에 내보내는 시크릿도 잡으려면, 출력 차단 프리셋과 짝지으세요 — §5를 참조하세요.

2. 콘솔에서 프리셋 적용하기

여기 모든 단계는 당신의 세션에서 호스팅된 게이트웨이에 대한 콘솔 액션입니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다. 최종 /v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다.
1

템플릿 열기

콘솔에서 Guardrails를 열고, New guardrail 분할 버튼을 클릭한 뒤, Secrets 템플릿 카테고리에서 Secrets & API-Key Blocker를 선택합니다. 입력 스테이지 block 규칙을 씨앗으로 만듭니다.
2

이름 지정 및 저장

이름을 지정하고(≤ 64자), 예: secrets-blocker, 저장합니다. 프리셋은 씨앗이지 잠금이 아닙니다 — 이후에 규칙을 자유롭게 추가하거나 편집하세요(§4 참조).
3

테스트

Test 탭을 열고, input 스테이지에서 샘플 자격 증명을 붙여넣고, 정책을 로컬에서 실행합니다 — 업스트림 호출 없음, 쿼터 없음 (§3 참조).
4

키 연결

API 키를 편집하고 Guardrail 드롭다운에서 secrets-blocker를 선택하거나(키에 guardrail_id 설정), 워크스페이스 기본값으로 표시합니다. 키에 연결하기계정 기본값을 참조하세요.

3. 연결하기 전에 테스트하기

어떤 키가 그것을 가리키기 전에 규칙이 발동함을 증명하세요. 에디터 내부의 Test 탭을 열고, 더미 자격 증명을 붙여넣고, input 스테이지를 선택한 뒤 실행합니다:
Here is my key: AKIAIOSFODNN7EXAMPLE
샌드박스는 현재 정책을 로컬에서 평가하고 — 업스트림으로 아무것도 보내지 않고, 아무것도 계량되지 않습니다 — 발동한 규칙을 명시하는 block 판정을 반환합니다. 유출된 시크릿과 양성 샘플의 코퍼스에 대한 A/B 그리드는 한 탭 옆의 평가 하니스에 있습니다.

4. 커버리지 확장하기

Secrets Blocker는 가장 트래픽이 높은 세 가지 형태를 다룹니다. Secrets 카테고리는 그것과 함께 적용할 수 있는 형제 프리셋을 제공하며, 당신의 스택이 발급하는 모든 토큰에 대해 자신의 regex 규칙을 작성할 수 있습니다:

Private Keys & Cloud Tokens

요청의 PEM 개인 키, Slack 및 Stripe 토큰, Google API 키, JWT를 차단하는 동반 Secrets 프리셋.

Crypto Wallet Block

프로바이더에 결코 도달해서는 안 되는 BTC 및 ETH 스타일 지갑 주소를 요청에서 차단합니다.
내부 토큰 형식을 매치하려면, input 스테이지에서 액션 block으로 regex 규칙을 추가하세요 — RE2 패턴, 선형 시간, 역참조 없음. 나쁜 패턴은 저장 시 거부되므로, 저장할 수 있는 guardrail은 항상 컴파일됩니다.
차단하기보다, 유출된 시크릿을 마스킹하고 정화된 요청을 통과시키고 싶나요? mask 액션이 있는 pii 규칙을 사용하세요 — 내장 탐지기 세트는 aws_access_key, api_key_openai, jwt를 포함하며, 각각이 [AWS_ACCESS_KEY] 같은 타입 지정된 태그로 렌더링됩니다. block vs. mask는 액션을 참조하세요.

5. 응답의 시크릿도 잡기

Secrets Blocker는 요청을 검사합니다. 별도의 Secrets 프리셋인 Code Secret in Output은 모델의 응답에서 개인 키와 AWS/OpenAI 스타일 토큰을 검사하고 하나가 되돌아 유출되면 호출을 차단합니다. 출력 block은 양방향으로 강제됩니다: 비스트리밍 응답에서는 답변이 반환되기 전에 검사되고, 스트리밍 응답에서는 스캐너가 차단된 콘텐츠가 클라이언트에 도달하기 전에 스트림을 끊습니다. 출력 스테이지 차단은 사전 소모된 쿼터를 환불합니다. 출력 스테이지 규칙스트리밍 커버리지를 참조하세요.

6. 차단이 어떻게 보이는가

차단된 요청은 오류 코드 guardrail_blocked와 함께 HTTP 400을 반환하며, 발동한 guardrail과 규칙을 명시하는 메시지를 담습니다:
{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"secrets-blocker\": regex(...)"
  }
}
요청은 쿼터를 소모하지 않으며(입력 스테이지 차단은 계량 전에 발동) skip-retry로 표시됩니다. 동일한 프롬프트를 다른 채널에 대해 다시 실행해도 그저 다시 차단될 뿐이기 때문입니다. guardrail_blocked 오류를 참조하세요.

7. 무엇이 발동했는지 보기

발동하는 모든 규칙은 match를 기록합니다 — 규칙 타입, 액션, 스테이지, 그리고 상세 문자열 — 워크스페이스 Matches 피드에 표시됩니다. 매치된 부분 문자열 자체(자격 증명)는 Log raw content가 켜져 있을 때 기록되며, 이는 기본적으로 꺼져 있습니다.
시크릿 제어의 경우, Log raw content를 꺼둔 채로 두는 것이 보통 핵심입니다: 매치된 부분 문자열을 캡처하면 유출된 자격 증명을 당신 자신의 텔레메트리에 곧바로 다시 쓰게 됩니다. 좁은 분류 필요가 없는 한 꺼둔 채로 두고, 잡힌 자격 증명은 무엇이든 교체하세요 — 차단된 요청은 시크릿이 프롬프트에 노출되었다는 의미이지, 안전하다는 의미가 아닙니다. Matches 피드로깅 및 프라이버시를 참조하세요.

8. 다음으로 갈 곳

정규식 탐지기

RE2 정규식 규칙으로 자신의 자격 증명 패턴을 작성합니다.

액션

규칙당 block, mask, flag, annotate, 또는 spotlight를 — 그리고 엔티티별 block, mask, flag, 또는 annotate를 선택합니다.

PII Shield

모델이 보기 전에 이메일, SSN, 카드를 타입 지정된 태그로 마스킹합니다.

거짓 양성 튜닝

Matches 피드에서 거짓 양성을 표시하고 탐지기를 조입니다.
Secrets Blocker는 당신이 보내는 콘텐츠에서 자격 증명을 차단합니다. 에이전트가 툴 호출을 통해 시크릿을 유출하는 것을 — 공격자가 통제하는 호스트로 유출하는 것을 — 막으려면, Firewall을 사용하고 데이터 유출 위협시크릿 유출 위협을 읽으세요. 완전한 guardrail 엔진은 Guardrails 레퍼런스를 참조하세요.