보안 FAQ - OrcaRouter

컨트롤 페이지를 읽었고 출시하기 전에 한 가지 질문이 남았습니다. 이것은 ai 에이전트 보안 faq입니다 — 전체 Zero-Trust 섹션에 걸친 교차 질문을 한곳에서 답하며, 각각 심층을 위한 레퍼런스에 링크합니다. 섹션에 처음이라면, AI 에이전트 보안과 제어 스택에서 시작하세요; 이 페이지는 두 강제 평면 — Guardrails(프롬프트/응답 텍스트)와 Firewall(에이전트 액션) — 이 있다는 것을 안다고 가정하고 그저 가장자리를 못 박을 필요만 있다고 봅니다.

1. ai 에이전트 보안 faq — 여기서 시작하세요

어느 컨트롤이 어느 질문에 답하는지의 30초 지도:

무엇에 대해 묻고 있나요…	평면	읽기
프롬프트나 응답 안의 텍스트(PII, 시크릿, 탈옥)	Guardrails	Guardrails
툴 호출, MCP, egress, skill	Firewall	Firewall
`400`에 어느 것이 발동했는지	둘 다	왜 차단되었나요?

호스팅된 게이트웨이의 모든 보안 차단은 머신 판독 가능한 code와 함께 HTTP 400입니다. 코드를 먼저 읽으세요 — 그것이 여러분을 올바른 피드로 분기시킵니다. 전체 표는 오류 코드에 있습니다.

2. Guardrails — 콘텐츠 스크리닝

요청에서 어떤 guardrail도 해석되지 않으면 어떻게 되나요?

아무것도 안 됩니다. 해석은: 키의 명시적 guardrail_id(존재하고 활성화된 경우) → 그렇지 않으면 워크스페이스 is_default guardrail → 그렇지 않으면 강제 없음. 비활성화된 명시적 연결은 오프 스위치입니다 — 기본값으로 폴백하지 않습니다. 아무것도 해석되지 않으면, 요청은 기능을 한 번도 활성화하지 않은 워크스페이스와 바이트 단위로 동일합니다.

차단된 요청이 쿼터를 소모하나요?

아니요. block 액션은 400 guardrail_blocked을 반환하고 쿼터를 소모하지 않습니다 — 입력 단계 차단은 미터링 전에 발동하고; 출력 단계 차단은 사전 소비된 쿼터를 환불합니다. 또한 skip-retry로 표시됩니다: 동일한 프롬프트를 다시 실행하면 그저 다시 차단됩니다.

어떤 규칙 유형과 액션이 있나요?

규칙 유형: keyword, regex, pii, max_chars, external, llm_judge, grounding. 액션: block(거부), mask(편집하고 전달), flag(로그만, 트래픽 변경 없음). 단계: input, output, both. 각각은 Guardrails를 참조하세요.

어떤 PII 엔티티가 탐지되고, mask는 어떻게 보이나요?

내장 엔티티는 email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, 플러스 지역 유형(jp_mynumber, kr_rrn, cn_resident_id)을 포함합니다. mask 액션은 타입 지정 태그를 렌더링합니다 — jane@acme.com → [EMAIL], SSN → [SSN]. 규칙당 최대 25개 커스텀 정규식 엔티티(선택적 Luhn 체크섬과 함께)를 계층화하고 entity_actions로 엔티티별 액션을 오버라이드할 수 있습니다.

출력 마스킹이 스트리밍 응답에 강제되나요?

출력 block은 양방향으로 강제됩니다 — 비스트리밍 응답은 반환 전에 스크리닝되고, 스트리밍 스캐너는 스트림을 중간에 끊습니다. 출력 mask는 현재 비스트리밍 전용입니다; 스트리밍 응답에서는 청크가 마스킹되지 않고 통과합니다(인밴드 스트림 재작성은 로드맵에 있습니다). 입력 단계 마스킹 — 모델이 보기 전에 요청을 정화 — 은 어쨌든 라이브입니다. PII Shield 프리셋은 오늘 입력 단계에서 마스킹합니다.

LLM judge는 얼마의 비용이 드나요?

keyword / regex / pii / max_chars 규칙은 모델 호출을 하지 않고 아무것도 청구하지 않습니다. llm_judge 규칙은 워크스페이스 모델을 통해 의미적 검사를 실행하고(judge_timeout_ms로 제한, 기본 fail-open) 별도의 judge 하위 라인으로 청구됩니다. grounding 규칙은 동일한 방식으로 요청의 검색된 소스에 대해 답변 충실도를 채점합니다(임계값 기본 0.7).

규칙이 실제로 무엇을 매치했는지 볼 수 있나요?

Matches 피드(GET /api/guardrail/match, Member)를 여세요. 각 행은 규칙 유형, 액션, 단계, 그리고 detail 문자열을 기록합니다 — 그리고 그 guardrail에 “Log raw content”가 켜져 있을 경우에만 매치된 부분 문자열도(기본 꺼짐, 프라이버시 보수적 자세). 잘못된 차단? 거짓 양성으로 표시하세요(POST /api/guardrail/match/:id/mark-fp, Admin).

알려진 CVE에 대해 의존성을 스캔하나요?

guardrail은 텍스트를 차단하거나 마스킹하지 않고 프롬프트를 코드 보안 권고(예: 참조된 패키지에 대한 CVE/SBOM 노트)로 장식할 수 있습니다. 이것은 요청을 거부하기보다 증강하는 주석 계층입니다 — 여러분이 직접 작성하는 block / mask / flag 액션과는 구별됩니다. 그것을 구동하려면 Integrations 아래에서 스캐너를 연결하세요.

3. Firewall — 에이전트 액션

firewall은 해석에서 guardrail과 어떻게 다른가요?

한 가지 핵심 차이: 비활성화된 연결 firewall 정책은 워크스페이스 기본값으로 폴백하지만, 비활성화된 연결 guardrail은 none으로 해석됩니다. 그 외에는 둘 다 키를 통해 연결되고 (firewall_policy_id / guardrail_id) 워크스페이스 기본 폴백을 공유합니다. Guardrails vs Firewall 참조.

판정과 표면이 무엇인가요?

판정: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict는 allow / audit / deny(기본 audit). 표면: inbound(광고된 툴), response(모델 발행 tool_calls), mcp(tools/call), egress(아웃바운드 호스트/IP/CIDR). 판정 용어집이 각각을 해독합니다.

`sanitize`가 툴이 반환하는 것을 정화하나요?

아니요 — 그리고 이것이 흔한 오해입니다. sanitize 판정은 툴 호출 인자에서만 매치된 부분 문자열을 편집합니다, 툴이 반환하는 콘텐츠는 결코 아님. inbound 표면(아직 호출 시점 인자 없음)에서는 sanitize가 deny로 격상됩니다.

자율성 수준은 무엇을 하나요?

한 스위치가 여러분의 전체 자세를 설정하며, 실제 편집 가능한 autonomy_* 행을 씁니다:
• balanced(권장 시작) — 기본 audit, 파괴적 셸 deny, audit 전용 PII Shield(PII 플래그).
• tight — 기본 거부, 파괴적 셸 deny, SSRF 형태 fetch 툴 deny, PII Shield + Secrets Blocker 강제.
• permissive — 관찰만.
원클릭 실행 취소는 적용이 쓴 감사 스냅샷에서 이전 상태를 복원합니다. 단일 단계입니다 — 이후 적용(또는 수동 정책 편집)이 그 스냅샷을 대체하면 실행 취소를 사용할 수 없습니다. 강제 모드 참조.

SSRF 프리셋이 사설 IP와 클라우드 메타데이터를 차단하나요?

프리셋으로는 아닙니다. tight 자율성 SSRF 프리셋은 흔한 fetch 형태 툴 이름(http_fetch, web_search, fetch_url, request)을 거부합니다. 목적지로 거부하려면 — RFC-1918 범위, 클라우드 메타데이터 IP, 특정 CIDR — 여러분 자신의 egress-표면 호스트/CIDR 거부 규칙을 작성하세요. 어떤 프리셋도 여러분을 위해 CIDR 규칙을 제공하지 않습니다. Egress 및 데이터 유출 참조.

트래픽을 깨뜨리지 않고 정책을 어떻게 롤아웃하나요?

shadow mode(정책별)를 켜세요: 정책이 평가하고 로깅하지만 모든 강제 판정을 audit로 강등하고, 이유에 [shadow] would …를 접두합니다. Events와 Runs 뷰를 보고, 그 다음 shadow를 꺼서 강제하세요. 워크스페이스 수준 observe mode(firewall_observe_mode)는 보완적 발견 다이얼입니다 — 커버되지 않은 호출을 Discovered Tools의 갭으로 로깅합니다.

사람 승인(HITL)은 어떻게 작동하나요?

pending_approval 판정은 승인 id와 함께 400 firewall_approval_pending을 반환합니다. 검토자가 콘솔에서(Developer+) 또는 HMAC 웹훅 콜백 (POST /api/v1/firewall/approvals/:id/callback)을 통해 해결합니다. 에이전트는 GET /api/v1/firewall/approvals/:id를 폴링하고 일회용 X-OrcaRouter-Firewall-Approval 헤더와 함께 원래 호출을 재제출합니다. 위험한 툴 호출 참조.

이상 탐지는 무엇을 찾나요?

학습된 주중 시간대 베이스라인(14일)에 대해 채점된 속도/비용 급증, 플러스 retry_loop과 novel_path(이전에 본 적 없는 툴 간 전이). 피드는 Member 판독 가능합니다; 이상을 최대 7일까지 스누즈하세요. 과도한 에이전시 참조.

4. MCP, 키 및 게이트웨이 접근

MCP 서버는 어떻게 통제되나요?

서버를 등록하면(name, endpoint, none/bearer/oauth/basic의 auth_mode, 암호화된 자격 증명) MCP 게이트웨이가 mcp 표면의 모든 tools/call을 디스패치 전에 평가합니다. Health가 추적됩니다 (ok/degraded/down); POST /api/workspace/firewall/mcp_servers/:id/probe로 프로브하세요. 프로브는 또한 서버의 광고된 툴 스키마를 베이스라인화합니다 — 이후의 드리프트는 그 schema status를 verified에서 changed로 뒤집습니다(“rug-pull” 신호), 그러면 여러분은 재베이스라인(승인)하거나 서버를 quarantine합니다. 그래서 거버넌스는 호출별 평가 플러스 스키마 무결성 추적과 skill 위험 밴드입니다. Firewall MCP와 MCP 툴 포이즈닝 참조.

위험하거나 자동 탐지된 skill에는 어떻게 되나요?

각 skill은 allow / quarantine / block의 강제 모드를 가진 위험 밴드로 스캔됩니다. 격리된 skill은 승인을 위해 보류됩니다; 자동 탐지된 skill은 사람이 검토할 때까지 격리된 채로 유지됩니다. 모드는 규칙 판정 위에 올라탑니다.

어떤 키 필드가 에이전트를 잠그나요?

model_limits(+ model_limits_enabled), allow_ips, credit_limit_usd(0 = 무제한), expired_time(-1 = 결코 안 됨), environment, guardrail_id, firewall_policy_id, 그리고 is_firewall_gateway. 최소 에이전시를 위해 결합하세요 — Scope, keys & policies 참조. 키는 표시 시 마스킹됩니다.

왜 `/api/v1/firewall/*`에서 403을 받나요?

그 게이트웨이 라우트(POST /evaluate, POST /evaluate_plan, ANY /mcp)는 is_firewall_gateway=true인 키를 요구합니다 — 여러분의 sk-orca-… 릴레이 키가 아니라 전용 firewall-gateway-scoped 토큰. 하나를 발급하고 그 평문을 읽는 것은 **Admin+**입니다.

구성과 호출의 차이는 무엇인가요?

구성은 콘솔에서 실행됩니다 — guardrail, firewall 정책, MCP 서버, 그리고 컴플라이언스는 여러분의 세션/액세스 토큰(UserAuth) 아래에서 관리되고, 모든 쓰기는 역할 게이트 처리됩니다(정책 및 guardrail 쓰기는 Developer+). 여러분의 /v1/* 릴레이 트래픽만 sk-orca-… 키를 사용합니다; /api/v1/firewall/* 게이트웨이 훅만 firewall-gateway-scoped 토큰을 사용합니다.

5. 컴플라이언스, 거주지 및 데이터

어떤 프레임워크가 다뤄지나요?

설치/리포트는 왜 게이트되나요?

탐색은 무료입니다; 팩 설치, 리포트 생성, 라이브 전환, 거주지 설정은 워크스페이스 Admin과 유료 플랜을 요구합니다(서버 게이트). 팩 설치 (POST /api/compliance/packs/:key/install)는 그 다음 편집할 수 있는 실제 guardrail + firewall 정책을 구체화합니다.

컴플라이언스 리포트가 검증 가능한가요?

네. 리포트는 Ed25519 서명 + SHA-256이며 공개적으로 검증 가능합니다: 공개 키를 가져오거나(GET /api/public/compliance/pubkey), 리포트를 검증하거나(POST /api/public/compliance/verify), 감사자에게 공유 링크를 건네세요(GET /api/public/compliance/share/:token). 내보내기는 CSV / JSON / PDF입니다.

데이터 거주지는 실제로 무엇을 고정하나요?

그것은 컴플라이언스 리포트 산출물의 지역(us, eu, uk, ap, cn, global)이며, PUT /api/compliance/residency(Admin)를 통해 설정 가능; 교차 지역 읽기는 보류됩니다. 여러분의 추론 데이터의 지오 핀은 아닙니다. 책임 범위 참조.

로그는 얼마나 오래 유지되고, 데이터를 어떻게 삭제하나요?

요청 로그 보존은 기본 30일이며 서버가 180일 하드 최대로 클램프합니다. 계정 삭제는 되돌릴 수 없는 PII 제거가 실행되기 전 유예 창(기본 30일) 동안 보류됩니다; 그 제거는 여러분에게 귀속된 Mongo 요청 로그 페이로드, guardrail match, 그리고 firewall 이벤트를 캐스케이드 퍼지합니다. 워크스페이스 아카이브는 그 워크스페이스에 대해 동일한 세 컬렉션을 캐스케이드 퍼지합니다. PII 노출 참조.

보안 컨트롤로부터의 400은 프롬프트의 버그가 아닙니다. 정책이 제 일을 하는 것입니다. 재시도하지 마세요 — 이 코드들은 skip-retry입니다. 규칙을 추적한 다음, 호출을 고칠지 정책을 완화할지 결정하세요: 왜 차단되었나요?.

6. 여전히 막혔나요?

오류 코드

게이트웨이가 반환할 수 있는 모든 차단, 보류, 거부.

왜 차단되었나요?

코드를 읽고, 올바른 피드를 열고, 정확한 규칙을 찾으세요.

Guardrail API

콘텐츠 정책을 위한 라우트, 역할, 페이로드.

Firewall API

액션 거버넌스를 위한 콘솔 및 게이트웨이 라우트.

Compliance API

카탈로그, 설치, 리포트, 거주지 엔드포인트.

용어집

Zero-Trust 문서 전반에서 사용되는 모든 용어.

이 컨트롤들이 멈추는 위협은 위협 모델에서 시작하세요. 깔끔한 베이스라인은 Secure Agents 베이스라인을 따르세요.

​1. ai 에이전트 보안 faq — 여기서 시작하세요

​2. Guardrails — 콘텐츠 스크리닝

​3. Firewall — 에이전트 액션

​4. MCP, 키 및 게이트웨이 접근

​5. 컴플라이언스, 거주지 및 데이터

​6. 여전히 막혔나요?

오류 코드

왜 차단되었나요?

Guardrail API

Firewall API

Compliance API

용어집

1. ai 에이전트 보안 faq — 여기서 시작하세요

2. Guardrails — 콘텐츠 스크리닝

3. Firewall — 에이전트 액션

4. MCP, 키 및 게이트웨이 접근

5. 컴플라이언스, 거주지 및 데이터

6. 여전히 막혔나요?