rm -rf /, SQL 러너가 실행하도록 내보내는 UNION SELECT. PII나 시크릿만 생각하는 콘텐츠 정책은 이 넷 모두를 놓칩니다.
Agent 프리셋 카테고리는 정확히 이 형태를 위해 존재합니다 —
다운스트림 툴이 그것에 작용하기 전에 요청이나 응답을 차단하는 결정적
regex 규칙.
이것은 에이전틱 유스 케이스에 초점을 둔 랜딩입니다. 완전한 guardrail 엔진
— 모든 규칙 타입, 필드, 스테이지, 라우트 — 은
Guardrails 레퍼런스를 참조하세요.
1. 에이전트 guardrails가 별개의 표면인 이유
guardrail은 콘텐츠를 검사합니다 — 요청의 텍스트와 응답의 텍스트. 에이전트의 경우, 그 텍스트는 액션이 됩니다: URL이 가져와지고, 마크다운이 렌더링되고, 셸 라인이 실행되고, SQL이 실행됩니다. 따라서 PII에 사용하는 동일한block / mask 엔진이 여기서 이중 역할을 합니다 —
에이전트의 툴 레이어가 그것을 부작용으로 바꾸기 전에 페이로드를
게이트웨이에서 멈춥니다.
Agent 카테고리는 네 개의 프리셋을 제공하며, 각각이 액션 block이
있는 regex 규칙으로, 두 스테이지에 걸쳐 나뉩니다:
URL Filter — input, block
URL Filter — input, block
요청의 모든
http(s) URL을 차단합니다. 아웃바운드 URL이
개방되기보다 허용 목록에 있어야 하는 에이전트 흐름에 사용하세요. 씨앗
패턴은 모든 URL을 매치합니다; 특정 도메인을 허용하려면 정규식을
편집하세요.Markdown Image Block — output, block
Markdown Image Block — output, block
모델의 응답에서 마크다운 이미지 임베드(
)를
차단합니다. 원격 이미지를 자동 로드하는 클라이언트에서 이미지 렌더링
유출에 대해 방어합니다 — 렌더링된 이미지 URL이 데이터를 몰래 빼내는
고전적인 데이터 유출 채널.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
요청의 명백한 셸 인젝션 패턴(
rm -rf /, curl … | sh,
wget … | bash, sudo 권한 상승)을 차단합니다. 사용자 입력을 셸 툴로
전달할 수 있는 에이전트 흐름에 사용하세요.SQL Injection in Output — output, block
SQL Injection in Output — output, block
고전적인 SQL 인젝션 페이로드(
UNION SELECT, OR 1=1, DROP TABLE,
주석 종료자)를 운반하는 모델 응답을 차단합니다. 모델이 생성한
SQL을 자동 실행하는 툴을 위한 심층 방어.2. 콘솔에서 에이전트 guardrail 적용하기
여기 모든 단계는 당신의 세션에서 호스팅된 게이트웨이에 대한 콘솔 액션입니다. guardrail을 생성하고 편집하려면 워크스페이스에서 **Developer+**가 필요합니다. 최종/v1/* 호출만 sk-orca-... 릴레이
키를 사용합니다 — guardrail 자체는 전적으로 콘솔에서 구성됩니다.
템플릿 열기
콘솔에서 Guardrails를 열고, New guardrail 분할 버튼을 클릭한
뒤, Agent 템플릿 카테고리에서 프리셋을 선택합니다 — 예:
Markdown Image Block. 올바른 스테이지에서 단일
regex block 규칙을
씨앗으로 만듭니다.이름 지정 및 저장
이름을 지정하고(≤ 64자), 예:
agent-rails, 저장합니다. 프리셋은
씨앗이지 잠금이 아닙니다 — 이후에 다른 세 Agent 규칙을 추가하거나
정규식을 자유롭게 편집하세요
(§4 참조).샌드박스에서 테스트
에디터 내부의 Test 탭을 열고, 샘플을 붙여넣고, 맞는 스테이지를
선택한 뒤, 현재 정책을 로컬에서 실행합니다 — 업스트림 호출 없음,
쿼터 없음 (§3 참조).
3. 연결하기 전에 증명하기
어떤 키가 그것을 가리키기 전에 규칙이 발동함을 증명하세요. Test 탭을 열고, output 스테이지를 선택한 뒤, 공격자가 오염시킨 페이지가 모델을 내보내도록 유도했을 수 있는 응답을 붙여넣습니다:4. 규칙 조합 및 튜닝
네 프리셋은 씨앗입니다. 흔한 동작은 그것들을 하나의agent-rails
guardrail로 결합하고 각 정규식을 당신의 스택에 맞게 조이는 것입니다:
URL 허용 목록
URL Filter에서 시작한 뒤,
regex를 편집하여 당신의 승인된 도메인을
제외한 모든 URL을 차단하게 하세요 — 무차별적 차단 대신 매치를 허용
목록으로 반전하세요.자신의 탐지기 작성
당신의 툴이 신경 쓰는 모든 페이로드 형태에 대해
regex 규칙을 추가하세요 —
RE2 패턴, 선형 시간, 역참조 없음. 패턴은 한 번 컴파일되어 요청 전반에서
캐시됩니다.5. 차단이 어떻게 보이는가
모든 Agent 프리셋은 block 액션을 사용합니다. 차단된 요청은 오류 코드guardrail_blocked와 함께 HTTP 400을 반환하며, 발동한 guardrail과
규칙을 명시하는 메시지를 담습니다:
guardrail_blocked 오류를
참조하세요.
6. guardrails는 콘텐츠; firewall은 툴 호출
에이전트 guardrails는 강력한 첫 레이어이지만, 툴 의미론이 아니라 문자열에 대해 추론합니다. 콘텐츠 안의 셸 라인을 차단합니다 — 모델이 파괴적 툴로 구조화된tool_call을 내보냈다거나, 아웃바운드 요청이
메타데이터 IP로 향하고 있다는 것을 이해하지 못합니다.
그 툴 호출 레이어가 Firewall입니다: 모델이 내보낸
tool_calls, MCP tools/call, 그리고 아웃바운드 egress를 allow /
audit / deny / pending_approval 같은 판정으로 평가합니다. 둘은
결합됩니다 — guardrails는 텍스트를 검사하고, firewall은 액션을 관리합니다.
Firewall
모델이 내보낸 툴 호출, MCP 호출, egress를 allow / audit / deny / 승인
판정으로 관리합니다.
Guardrails vs. Firewall
콘텐츠 guardrail vs. 툴 호출 firewall을 언제 찾을지 — 그리고 둘 다
실행하는 방법.
AI 에이전트 보안
전체 에이전트 제어 스택: 콘텐츠, 툴, MCP, egress.
과도한 에이전시
이 레일이 다루는 위협 — 해야 할 것보다 더 많이 하는 에이전트.
7. 무엇이 발동했는지 보기
발동하는 모든 규칙은 match를 기록합니다 — 규칙 타입, 액션, 스테이지, 그리고 상세 문자열 — 워크스페이스 Matches 피드에 표시됩니다. 매치된 부분 문자열 자체는 Log raw content가 켜져 있을 때 만 기록되며, 이는 기본적으로 꺼져 있습니다. guardrail별, 규칙 타입별, 액션별로 피드를 그룹화하고 필터링하여 에이전트 규칙 히트율을 지켜보고 거짓 양성을 튜닝하세요. Matches 피드, 로깅 및 프라이버시, 그리고 거짓 양성 튜닝을 참조하세요.8. 다음으로 갈 곳
출력 스테이지 규칙
Markdown Image Block과 SQL Injection in Output에 대해 응답 검사가
어떻게 작동하는지.
정규식 탐지기
Agent 규칙을 확장하기 위해 자신의 RE2 패턴을 작성합니다.
데이터 유출
Markdown Image Block이 닫는 유출 채널.
위험한 툴 호출
콘텐츠 레일만으로는 왜 충분하지 않은지 — firewall과 짝지으세요.
