https://api.orcarouter.ai/v1을 계속 호출합니다.
1. 위협: 에이전트는 대화만 하지 않고 행동합니다
프롬프트 수준 안전은 채팅을 위해 만들어졌습니다. 모델이 텍스트를 생성하고 사람이 그것을 읽는다고 가정합니다. 에이전트는 그 가정을 깨뜨립니다:- 신뢰할 수 없는 콘텐츠를 수집합니다 — 웹 페이지, 검색된 문서, 툴 결과 — 이는 지시사항(프롬프트 인젝션)을 담을 수 있습니다.
- 툴을 호출합니다 —
shell.exec,db.query, 결제 API — 이는 되돌릴 수 없는 일을 합니다. - 네트워크에 접근합니다 — 공격자가 내부 서비스나 유출 엔드포인트로 유도할 수 있는 URL을 가져옵니다.
- 자기 확장합니다 — 검토한 적 없는 스킬, 플러그인, MCP 서버를 설치합니다.
2. 제어 스택
OrcaRouter는 모든 요청에 네 개의 레이어를 적용합니다. 각각은 독립적이고, 워크스페이스 범위이며, 코드 변경 없이 API 키에 연결됩니다.범위 지정 키
최소 권한 신원. 특정 모델, IP, 지출 한도, 만료 시각, 그리고 적용할
guardrail + firewall 정책에 바인딩됩니다.
Guardrails
콘텐츠 제어. 프롬프트와 응답을 검사 — PII, 시크릿, 인젝션, 안전하지
않은 출력을 차단, 마스킹, 또는 플래그합니다.
Agent Firewall
액션 제어. 툴 허용 목록 설정, 툴 호출 인자 검증 및 정화, 승인 대기,
egress와 비용 상한 처리.
감사
귀속. 모든 매치, 판정, 승인이 로깅되고 그것을 유발한 에이전트 실행과
연관됩니다.
3. “제로 트러스트”란 무엇인가
제로 트러스트란 어디서 왔는지에 상관없이 어떤 요청도 신뢰하지 않는다는 의미입니다. 툴 호출은 그것이 무엇인지로 판단되며, 여러분의 에이전트가 발행했다는 사실로 판단되지 않습니다 — 왜냐하면 에이전트는 신뢰할 수 없는 페이지에서 읽은 주입된 지시사항에 따라 행동하고 있을 수 있기 때문입니다. OrcaRouter는 중요한 액션에 대해 기본 거부로, 의도한 것에 대해서는 명시적 허용 목록으로 이를 강제합니다. AI 에이전트에 제로 트러스트가 필요한 이유에서 이 모델을 심층적으로 다룹니다.4. 모든 것이 게이트웨이에 존재합니다
제어 스택은 워크스페이스에서 구성되고 게이트웨이에서 강제됩니다 — 애플리케이션 안이 아닙니다:- 한 번 연결하면 어디서든 적용됩니다. guardrail과 firewall 정책을 API 키에 바인딩하면; 그 키가 하는 모든 호출이 검사됩니다. 정책을 편집하면 연결된 모든 키가 다음 요청에서 변경됩니다.
- 재배포 없음, SDK 변경 없음. 에이전트는 동일한 OpenAI 형태의 호출을 계속 발행합니다. 규칙이 발동하기 전까지 강제는 보이지 않습니다.
- 프로바이더 무관. 동일한 정책이 GPT, Claude, Gemini와 나머지 모델 위에서 실행됩니다 — 모델 선택이 아니라 텍스트와 액션을 검사합니다.
구성은 워크스페이스 내에서 역할에 따라 제한됩니다. 정책과 설정을
읽는 것은 모든 멤버에게 열려 있습니다; firewall Events 및 Runs
피드는 Developer 역할이 필요합니다; guardrails, firewall 정책, 키
생성 또는 변경은 Developer가 필요합니다; 컴플라이언스 및
게이트웨이 키 변경은 Admin이 필요합니다. 이 문서 전반에서, 각
구성 단계는 필요한 역할을 명시합니다.
5. 빠른 경로: 스위치 하나
보호를 받기 위해 규칙을 작성할 필요가 없습니다. 자율성 수준이 단일 단계로 Firewall 및 Guardrails 자세 전체를 설정하며, 원클릭 실행 취소를 제공합니다:| 수준 | 얻게 되는 것 |
|---|---|
tight | 기본 거부; 파괴적 툴과 SSRF egress 차단; PII + secrets guardrails 켬. |
balanced | 기본 감사, 파괴적 셸 거부, PII 플래그. 권장 시작 자세. |
permissive | 강제 없음, 하지만 모든 것이 관찰되어 에이전트 동작을 볼 수 있음. |
6. 다음 단계
퀵스타트
5분 만에 제로 트러스트를 켭니다.
제로 트러스트가 필요한 이유
설계 뒤의 위협 모델.
Guardrails vs. Firewall
어느 레이어가 어느 위협을 잡는지.
책임 범위
게이트웨이가 보호하는 것과 여러분이 담당하는 것.
