개념 용어 사전 - OrcaRouter

AI 에이전트 보안 용어 사전

제로 트러스트 문서 전반에서 사용되는 모든 용어의 빠른 참조 인덱스. 각 정의는 호스팅된 게이트웨이의 개발자로서 여러분이 관찰하고 구성할 수 있는 것에 범위가 지정됩니다. 용어는 전체 세부 사항을 위한 홈 페이지로 링크됩니다.

신원 & 범위

용어	정의
워크스페이스	최상위 테넌트 경계. 모든 키, guardrails, firewall 정책, 감사 이벤트가 하나의 워크스페이스에 속합니다; 테넌트 경계를 넘는 것은 없습니다. 범위, 키 & 정책 참조.
API 키 (범위 지정 키)	에이전트가 모든 호출에서 제시하는 Bearer 토큰. 자체 모델 허용 목록, IP 제한, 지출 한도, 만료, 그리고 그것에 적용되는 정확한 guardrail + firewall 정책을 담습니다. 범위, 키 & 정책 참조.
`model_limits`	키가 호출하도록 허용된 모델 (또는 모델 glob) 집합. 목록에 없는 모델에 대한 요청은 어떤 업스트림 호출 전에도 거부됩니다.
`allow_ips`	키의 IP 또는 CIDR 허용 목록. 목록에 없는 주소에서 발생하는 요청은 인증에서 거부됩니다.
`credit_limit_usd` (지출 한도)	키에 대한 하드 지출 한도 (USD). 키의 누적 사용량이 한도에 도달하면 추가 요청이 거부됩니다. 폭주 에이전트 루프를 제한하는 데 유용합니다.
환경 태그	키에 연결되어 배포 환경별로 구성하고 식별하는 자유 형식 레이블 (예: `production`, `staging`).
`is_firewall_gateway`	Firewall 게이트웨이 라우트 (`/api/v1/firewall/*`) — MCP 디스패치와 evaluate-hook 엔드포인트 — 를 위해 키의 범위를 지정하는 플래그. 일반 키는 그 라우트들에서 `403`을 받습니다.
최소 권한	에이전트에게 실제로 필요한 모델, 지출, IP, 정책만 제공하는 원칙 — 그 이상 없음. `model_limits`, `allow_ips`, `credit_limit_usd`, 그리고 제한적인 firewall 정책을 동일한 키에 결합하여 구현됩니다. 범위, 키 & 정책 참조.

Guardrails

용어	정의
Guardrail	이름이 지정된, 워크스페이스 범위 콘텐츠 정책 — 게이트웨이가 요청 입력과 모델 출력에 대해 실행하는 순서가 있는 규칙 목록. 키에 한 번 연결하거나 (또는 워크스페이스 기본값으로 설정); 모든 바인딩된 호출이 재배포 없이 검사됩니다.
규칙	Guardrail 안의 하나의 검사: 타입 (무엇을 탐지할지), 스테이지 (어디서 볼지), 액션 (무엇을 할지). 규칙은 순서대로 실행됩니다.
스테이지	`input` (호출자의 요청), `output` (모델의 응답), 또는 `both`. 규칙은 선언된 스테이지에서만 발동합니다.
액션	`block` — 전체 요청 거부 (HTTP 400); `mask` — 매치를 삭제하고 호출을 통과시킴; `flag` — 로그만, 트래픽 변경 없음.
`guardrail_blocked`	Guardrail 규칙이 `block` 액션을 발동할 때 반환되는 오류 코드. HTTP 400 반환. 요청은 쿼터를 소모하지 않습니다 — input-stage 차단은 계량 전에 발동; output-stage 차단은 사전 소모된 쿼터를 환불.
PII Shield	내장 민감한 엔티티 타입 (이메일, 전화, SSN, 신용 카드, IP 등)을 탐지하고 타입 지정된 태그로 마스킹하는 `pii` 타입 규칙. 데이터 손실 방지의 표준 시작점. 시크릿과 자격 증명은 별도의 Secrets Blocker 프리셋이 커버합니다.
프롬프트 인젝션 guardrail	신뢰할 수 없는 콘텐츠 (웹 페이지, 툴 결과)가 에이전트의 지시사항을 납치하려는 시도를 탐지하는 안전 규칙. Safety 템플릿 카테고리의 Prompt-Injection Basics 프리셋으로 제공됩니다.
민감 단어 필터	리터럴 용어 목록을 대소문자 구분 없이 매칭하는 `keyword` 타입 규칙. 가장 간단한 거부 목록.
LLM 심판	워크스페이스의 모델에 대해 의미론적 검사 (독성, 주제 이탈, 탈옥 의도)를 실행하는 `llm_judge` 타입 규칙. 정규식이 포착할 수 없는 모호한 정책에 사용. 토큰은 심판 서브 라인으로 청구됩니다.
컨텍스트 그라운딩	요청에서 RAG 소스에 대해 모델의 답변을 채점하고 그것에 충실하지 않은 답변을 플래그하거나 차단하는 `grounding` 타입 규칙.
Log raw content	Per-guardrail 토글 — 기본적으로 꺼짐 (프라이버시 보수적). 꺼져 있으면 Matches 피드는 규칙이 발동했다는 사실을 기록하지만 매치된 부분 문자열은 기록하지 않습니다. 분류를 위해 실제 문자열이 필요할 때 guardrail별로 켜세요.
Matches 피드	발동한 모든 규칙의 워크스페이스 전체 기록: 규칙 타입, 액션, 스테이지, 상세 문자열, 그리고 (Log raw content가 켜져 있을 때) 매치된 부분 문자열. Guardrail, 규칙 타입, 액션별로 필터링 가능.

Agent Firewall

용어	정의
Firewall 정책	게이트웨이가 모든 툴 호출에서 평가하는 이름이 지정된, 워크스페이스 범위 순서가 있는 규칙 집합. 키에 한 번 연결하거나 워크스페이스 기본값으로 설정; 에이전트 코드 변경 불필요.
판정	툴 호출에 대해 규칙 (또는 기본값)이 생성하는 결과. `allow`, `audit`, `deny`, `sanitize`, `pending_approval`, 또는 `cap_cost` 중 하나.
기본 판정	정책의 어떤 규칙도 툴 호출에 매칭되지 않을 때 적용되는 판정. 강제할 준비가 될 때까지 `audit`으로 기본 설정 — 모든 것을 허용하고 기록.
강제 표면	Firewall이 호출을 보는 요청 수명 주기의 지점: `inbound` (에이전트가 광고하는 툴 정의), `response` (모델이 발행하는 툴 호출), `mcp` (MCP 게이트웨이를 통한 `tools/call`), 또는 `egress` (툴이 보고하는 아웃바운드 목적지). Firewall 참조.
툴 허용 목록 (glob)	규칙의 `tool_name_glob` — 툴 이름이나 패밀리를 매칭하는 소규모 대소문자 구분 문법 (`shell.`, `.exec`, `*`). 순서가 있는 규칙 목록에서 첫 매치 승리.
인자 검증	규칙의 `args_match` 절 — 툴 인자의 JSONPath 필드에 대해 `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` 연산자. “`shell.exec` 차단”과 “명령이 `rm -rf`일 때만 `shell.exec` 차단”의 차이.
Sanitize	전체 액션을 차단하는 대신 툴 인자에서 매치된 부분 문자열 (시크릿, PII)을 삭제하고 정화된 호출을 전달하는 `sanitize` 판정. `inbound` 표면에서 차단으로 상향됩니다.
Egress 제어	호스트/CIDR 허용 또는 거부 목록이 있는 `egress` 표면 규칙 — SSRF와 데이터 유출에 대한 주요 방어. `tight` 자율성 수준은 일반적인 fetch 형태 툴 (`http_fetch`, `fetch_url`, `web_search`, `request`)도 거부합니다.
`cap_cost`	에이전트 실행의 누적 지출 (센트)이 규칙별 한도를 초과하면 툴 호출을 거부하는 판정. 폭주 에이전트 루프의 회로 차단기; 규칙으로 작성되고 누적 지출에 따라 이벤트에서 허용 또는 거부로 해석됩니다.
시퀀스 규칙	시간 윈도우 내에서 순서가 있는 다단계 툴 호출 체인을 매칭하는 `sequence` 블록이 있는 규칙 (예: 대량 읽기 → 내보내기 → egress). 비동기 매처에 의해 반응적으로 강제됩니다; 이벤트 피드에 표시됩니다.
`firewall_blocked`	거부된 툴 호출의 오류 코드. `inbound`에서 HTTP 400 반환; `mcp`에서 툴 오류. skip-retry로 표시됩니다.
승인 / HITL (`pending_approval`)	툴 호출을 사람의 검토를 위해 보류하는 `pending_approval` 판정. 에이전트는 승인 id가 있는 보류된 응답을 받고, 검토자는 대역 외에서 승인하거나 거부하고, 에이전트는 일회용 승인 토큰으로 재제출합니다. 보류 중인 HTTP 오류 코드는 `firewall_approval_pending`입니다.
이상 탐지	정적 규칙 위의 통계 레이어. 14일 주중 시간대 베이스라인에 대해 툴별 활동을 채점하고 검토 가능한 피드에서 급증, 재시도 루프, 새로운 툴 전이 경로를 플래그합니다.

자세

용어	정의
Observe mode	워크스페이스 수준 설정. 켜져 있고 키에 정책이 연결되어 있지 않으면, 툴 호출이 허용되지만 커버리지 갭으로 로깅되어 Discovered-tools 뷰를 채웁니다.
Shadow mode	정책의 플래그. 정책이 프로덕션에서와 정확히 동일하게 평가하고 로깅하지만, 모든 강제 판정이 `audit`으로 강등됩니다 (이유에 `[shadow] would …` 접두). 안전한 롤아웃 스위치.
Enforce	Shadow mode가 꺼지고 정책이 연결될 때의 기본 상태. 판정이 효력을 발휘합니다 — `deny` 차단, `sanitize` 삭제, `pending_approval` 보류.
자율성 수준	하나의 트랜잭션에서 원클릭 실행 취소로 워크스페이스의 Firewall과 Guardrails 자세를 원자적으로 교체하는 단일 스위치 (`tight` / `balanced` / `permissive`). 강제 모드와 에이전트 보안 기준선 참조.

MCP & 스킬

용어	정의
MCP 서버	워크스페이스에 등록되고 Firewall MCP 게이트웨이 (`api.orcarouter.ai/api/v1/firewall/mcp`)를 통해 노출되는 Model Context Protocol 서버. 수신하는 모든 `tools/call`이 인라인으로 평가됩니다. Firewall MCP 참조.
`tools/call`	MCP 서버에 툴을 디스패치하는 MCP 프로토콜 메시지. Firewall이 전달 전에 `mcp` 표면에서 평가합니다.
러그 풀	MCP 서버나 설치된 기능이 접근을 허가한 후 툴 정의를 변경하거나 확장하는 공급망 위험. OrcaRouter가 피해 범위를 관리합니다: 모든 MCP `tools/call`이 `mcp` 표면에서 규칙에 대해 firewall 평가되고, 위험 스캔을 받은 스킬은 사람이 검토할 때까지 `quarantine`에 보류됩니다.
스킬	게이트웨이가 등록 시 위험을 스캔하는 기능 번들 (하나 이상의 MCP 서버에서 하나 이상의 툴). 각 스킬은 위험 밴드와 정책 수준 판정 위에 올라타는 강제 모드 (`allow`, `quarantine`, `block`)를 받습니다.

컴플라이언스 & 데이터

용어	정의
컴플라이언스 팩	규제 프로파일 (GDPR, PCI, HIPAA, 금융 데이터)을 위한 사전 구축 guardrail + firewall 정책 번들. 템플릿 라이브러리에서 한 번 적용; 적용 후 규칙 편집 가능.
서명된 컴플라이언스 보고서	Ed25519로 서명된 워크스페이스 수준 증명 보고서. 서명은 공개적으로 검증 가능합니다 — 공개 키를 가진 누구나 보고서가 변조되지 않았음을 확인할 수 있습니다.
데이터 거주지	컴플라이언스 증거를 위해 기록된 지역. 서명된 컴플라이언스 보고서는 지역 (`us`, `eu`, `uk`, `ap`, `cn`, `global`)별로 스탬프되고 저장되며, 보고서는 일치하는 선언된 지역 아래에서만 서비스됩니다. 컴플라이언스 설정에서 설정하세요.
삭제 권리	워크스페이스 삭제 또는 명시적 삭제 요청 시, OrcaRouter는 30일 유예 기간을 허용한 다음 해당 워크스페이스에 대해 로그와 감사 기록에서 PII를 정리합니다.
감사 이벤트	모든 생성, 업데이트, 삭제, 강제 결정 후 기록되는 변경 불가 기록 — 정책 변경, 규칙 편집, 승인 해결, guardrail 저장. 시크릿 값과 규칙 blob은 감사 로그에 기록되지 않습니다.

위협 (한 줄)

위협	무엇인지
프롬프트 인젝션	공격자가 에이전트가 수집하는 콘텐츠에 지시사항을 삽입합니다 (직접: 사용자 메시지에; 간접: 웹 페이지, 문서, 또는 툴 결과에) 에이전트의 동작을 납치하기 위해.
탈옥	모델의 안전 훈련을 우회하려는 시도를 하는 만들어진 프롬프트, 일반적으로 요청을 롤플레이, 가상, 또는 시스템 재정의로 프레이밍함으로써.
과도한 권한 / 혼란된 대리인	작업에 필요한 것보다 더 넓은 권한을 부여받은 에이전트는 주입된 지시사항으로 즉시 악용 가능합니다 — 주요 완화는 최소 권한.
데이터 유출	공격자 제어 엔드포인트로 민감한 데이터를 유출하기 위해 툴 호출이나 아웃바운드 요청을 유도하는 에이전트 (또는 주입된 지시사항). Egress 제어 규칙으로 완화됨.
지갑 서비스 거부	제한 없는 업스트림 모델 지출을 생성하는 폭주하거나 적대적으로 트리거된 에이전트. 키의 `credit_limit_usd`와 firewall 정책의 `cap_cost` 규칙으로 완화됨.

이러한 제어들이 어떻게 구성되는지 전체 그림은 OrcaRouter로 AI 에이전트 보안 강화를 참조하세요.

공유 책임 위협 모델