OrcaRouter로 AI 에이전트 보안 강화

AI 에이전트는 챗봇이 아닙니다. 신뢰할 수 없는 웹 페이지를 읽고, 툴을 호출하고, 비용을 지출하고, 내부 호스트에 접근하고, 런타임에 발견한 기능을 로드합니다. 이 각각은 실제 세계에 결과를 미치는 액션이며, 대부분은 사람의 개입 없이 일어납니다. OrcaRouter는 에이전트와 에이전트가 호출하는 모든 모델 사이에 위치하므로, 어느 프로바이더가 서비스를 제공했는지와 무관하게 모든 요청과 응답 — 그리고 에이전트가 라우팅하는 모든 툴 호출과 아웃바운드 목적지 — 을 볼 수 있는 단 하나의 지점입니다. 그 초크 포인트가 바로 제로 트러스트 강제가 이루어져야 할 곳입니다. 워크스페이스에서 한 번 구성하면, 에이전트는 이전과 정확히 동일하게 https://api.orcarouter.ai/v1을 계속 호출합니다.

1. 위협: 에이전트는 대화만 하지 않고 행동합니다

프롬프트 수준 안전은 채팅을 위해 만들어졌습니다. 모델이 텍스트를 생성하고 사람이 그것을 읽는다고 가정합니다. 에이전트는 그 가정을 깨뜨립니다:

신뢰할 수 없는 콘텐츠를 수집합니다 — 웹 페이지, 검색된 문서, 툴 결과 — 이는 지시사항(프롬프트 인젝션)을 담을 수 있습니다.
툴을 호출합니다 — shell.exec, db.query, 결제 API — 이는 되돌릴 수 없는 일을 합니다.
네트워크에 접근합니다 — 공격자가 내부 서비스나 유출 엔드포인트로 유도할 수 있는 URL을 가져옵니다.
자기 확장합니다 — 검토한 적 없는 스킬, 플러그인, MCP 서버를 설치합니다.

그 어느 것도 프롬프트만 읽는 콘텐츠 필터에게는 보이지 않습니다. 에이전트를 보호한다는 것은 신원, 콘텐츠, 액션, 그리고 네트워크를 통제하고, 모든 것에 대한 감사 추적을 유지하는 것을 의미합니다.

2. 제어 스택

OrcaRouter는 모든 요청에 네 개의 레이어를 적용합니다. 각각은 독립적이고, 워크스페이스 범위이며, 코드 변경 없이 API 키에 연결됩니다.

범위 지정 키

최소 권한 신원. 특정 모델, IP, 지출 한도, 만료 시각, 그리고 적용할 guardrail + firewall 정책에 바인딩됩니다.

Guardrails

콘텐츠 제어. 프롬프트와 응답을 검사 — PII, 시크릿, 인젝션, 안전하지 않은 출력을 차단, 마스킹, 또는 플래그합니다.

Agent Firewall

액션 제어. 툴 허용 목록 설정, 툴 호출 인자 검증 및 정화, 승인 대기, egress와 비용 상한 처리.

감사

귀속. 모든 매치, 판정, 승인이 로깅되고 그것을 유발한 에이전트 실행과 연관됩니다.

요청은 순서대로 흐릅니다: 키는 호출이 허용되는지와 어떤 정책이 적용되는지를 결정하고; guardrails는 입력 텍스트를 검사하고; 모델이 실행되고; firewall은 모든 툴 호출과 아웃바운드 목적지를 판단하고; guardrails는 출력을 검사하고; 모든 결정이 감사 추적에 기록됩니다. 전체 경로는 제어 스택을 참조하세요.

3. “제로 트러스트”란 무엇인가

제로 트러스트란 어디서 왔는지에 상관없이 어떤 요청도 신뢰하지 않는다는 의미입니다. 툴 호출은 그것이 무엇인지로 판단되며, 여러분의 에이전트가 발행했다는 사실로 판단되지 않습니다 — 왜냐하면 에이전트는 신뢰할 수 없는 페이지에서 읽은 주입된 지시사항에 따라 행동하고 있을 수 있기 때문입니다. OrcaRouter는 중요한 액션에 대해 기본 거부로, 의도한 것에 대해서는 명시적 허용 목록으로 이를 강제합니다. AI 에이전트에 제로 트러스트가 필요한 이유에서 이 모델을 심층적으로 다룹니다.

4. 모든 것이 게이트웨이에 존재합니다

제어 스택은 워크스페이스에서 구성되고 게이트웨이에서 강제됩니다 — 애플리케이션 안이 아닙니다:

한 번 연결하면 어디서든 적용됩니다. guardrail과 firewall 정책을 API 키에 바인딩하면; 그 키가 하는 모든 호출이 검사됩니다. 정책을 편집하면 연결된 모든 키가 다음 요청에서 변경됩니다.
재배포 없음, SDK 변경 없음. 에이전트는 동일한 OpenAI 형태의 호출을 계속 발행합니다. 규칙이 발동하기 전까지 강제는 보이지 않습니다.
프로바이더 무관. 동일한 정책이 GPT, Claude, Gemini와 나머지 모델 위에서 실행됩니다 — 모델 선택이 아니라 텍스트와 액션을 검사합니다.

구성은 워크스페이스 내에서 역할에 따라 제한됩니다. 정책과 설정을 읽는 것은 모든 멤버에게 열려 있습니다; firewall Events 및 Runs 피드는 Developer 역할이 필요합니다; guardrails, firewall 정책, 키 생성 또는 변경은 Developer가 필요합니다; 컴플라이언스 및 게이트웨이 키 변경은 Admin이 필요합니다. 이 문서 전반에서, 각 구성 단계는 필요한 역할을 명시합니다.

5. 빠른 경로: 스위치 하나

보호를 받기 위해 규칙을 작성할 필요가 없습니다. 자율성 수준이 단일 단계로 Firewall 및 Guardrails 자세 전체를 설정하며, 원클릭 실행 취소를 제공합니다:

수준	얻게 되는 것
`tight`	기본 거부; 파괴적 툴과 SSRF egress 차단; PII + secrets guardrails 켬.
`balanced`	기본 감사, 파괴적 셸 거부, PII 플래그. 권장 시작 자세.
`permissive`	강제 없음, 하지만 모든 것이 관찰되어 에이전트 동작을 볼 수 있음.

이것이 에이전트 보안 기준선 — 거기서 시작하고, 에이전트가 실제로 무엇을 하는지 관찰한 다음 강화하세요.

6. 다음 단계

퀵스타트

5분 만에 제로 트러스트를 켭니다.

제로 트러스트가 필요한 이유

설계 뒤의 위협 모델.

Guardrails vs. Firewall

어느 레이어가 어느 위협을 잡는지.

책임 범위

게이트웨이가 보호하는 것과 여러분이 담당하는 것.

제로 트러스트가 필요한 이유

​1. 위협: 에이전트는 대화만 하지 않고 행동합니다

​2. 제어 스택

범위 지정 키

Guardrails

Agent Firewall

감사

​3. “제로 트러스트”란 무엇인가

​4. 모든 것이 게이트웨이에 존재합니다

​5. 빠른 경로: 스위치 하나

​6. 다음 단계

퀵스타트

제로 트러스트가 필요한 이유

Guardrails vs. Firewall

책임 범위

1. 위협: 에이전트는 대화만 하지 않고 행동합니다

2. 제어 스택

3. “제로 트러스트”란 무엇인가

4. 모든 것이 게이트웨이에 존재합니다

5. 빠른 경로: 스위치 하나

6. 다음 단계