1. ai 에이전트 보안 faq — 여기서 시작하세요
어느 컨트롤이 어느 질문에 답하는지의 30초 지도:| 무엇에 대해 묻고 있나요… | 평면 | 읽기 |
|---|---|---|
| 프롬프트나 응답 안의 텍스트(PII, 시크릿, 탈옥) | Guardrails | Guardrails |
| 툴 호출, MCP, egress, skill | Firewall | Firewall |
400에 어느 것이 발동했는지 | 둘 다 | 왜 차단되었나요? |
2. Guardrails — 콘텐츠 스크리닝
요청에서 어떤 guardrail도 해석되지 않으면 어떻게 되나요?
요청에서 어떤 guardrail도 해석되지 않으면 어떻게 되나요?
guardrail_id(존재하고
활성화된 경우) → 그렇지 않으면 워크스페이스 is_default guardrail →
그렇지 않으면 강제 없음. 비활성화된 명시적 연결은 오프 스위치입니다 —
기본값으로 폴백하지 않습니다. 아무것도 해석되지 않으면, 요청은 기능을
한 번도 활성화하지 않은 워크스페이스와 바이트 단위로 동일합니다.차단된 요청이 쿼터를 소모하나요?
차단된 요청이 쿼터를 소모하나요?
block 액션은 400 guardrail_blocked을 반환하고 쿼터를
소모하지 않습니다 — 입력 단계 차단은 미터링 전에 발동하고; 출력 단계
차단은 사전 소비된 쿼터를 환불합니다. 또한 skip-retry로 표시됩니다:
동일한 프롬프트를 다시 실행하면 그저 다시 차단됩니다.어떤 규칙 유형과 액션이 있나요?
어떤 규칙 유형과 액션이 있나요?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. 액션: block(거부), mask(편집하고 전달),
flag(로그만, 트래픽 변경 없음). 단계: input, output, both.
각각은 Guardrails를 참조하세요.어떤 PII 엔티티가 탐지되고, mask는 어떻게 보이나요?
어떤 PII 엔티티가 탐지되고, mask는 어떻게 보이나요?
email, phone, credit_card, ssn, ip, iban,
mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, 플러스 지역 유형(jp_mynumber, kr_rrn,
cn_resident_id)을 포함합니다. mask 액션은 타입 지정 태그를 렌더링합니다 —
jane@acme.com → [EMAIL], SSN → [SSN]. 규칙당 최대 25개 커스텀
정규식 엔티티(선택적 Luhn 체크섬과 함께)를 계층화하고 entity_actions로
엔티티별 액션을 오버라이드할 수 있습니다.출력 마스킹이 스트리밍 응답에 강제되나요?
출력 마스킹이 스트리밍 응답에 강제되나요?
LLM judge는 얼마의 비용이 드나요?
LLM judge는 얼마의 비용이 드나요?
keyword / regex / pii / max_chars 규칙은 모델 호출을 하지 않고
아무것도 청구하지 않습니다. llm_judge 규칙은 워크스페이스 모델을 통해
의미적 검사를 실행하고(judge_timeout_ms로 제한, 기본 fail-open)
별도의 judge 하위 라인으로 청구됩니다. grounding 규칙은 동일한
방식으로 요청의 검색된 소스에 대해 답변 충실도를 채점합니다(임계값 기본
0.7).규칙이 실제로 무엇을 매치했는지 볼 수 있나요?
규칙이 실제로 무엇을 매치했는지 볼 수 있나요?
GET /api/guardrail/match, Member)를 여세요. 각 행은
규칙 유형, 액션, 단계, 그리고 detail 문자열을 기록합니다 — 그리고 그
guardrail에 “Log raw content”가 켜져 있을 경우에만 매치된
부분 문자열도(기본 꺼짐, 프라이버시 보수적 자세). 잘못된 차단?
거짓 양성으로 표시하세요(POST /api/guardrail/match/:id/mark-fp, Admin).알려진 CVE에 대해 의존성을 스캔하나요?
알려진 CVE에 대해 의존성을 스캔하나요?
block / mask / flag 액션과는 구별됩니다. 그것을 구동하려면
Integrations 아래에서 스캐너를 연결하세요.3. Firewall — 에이전트 액션
firewall은 해석에서 guardrail과 어떻게 다른가요?
firewall은 해석에서 guardrail과 어떻게 다른가요?
firewall_policy_id / guardrail_id) 워크스페이스 기본 폴백을
공유합니다.
Guardrails vs Firewall
참조.판정과 표면이 무엇인가요?
판정과 표면이 무엇인가요?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict는 allow / audit / deny(기본
audit). 표면: inbound(광고된 툴), response(모델 발행
tool_calls), mcp(tools/call), egress(아웃바운드
호스트/IP/CIDR). 판정 용어집이
각각을 해독합니다.`sanitize`가 툴이 반환하는 것을 정화하나요?
`sanitize`가 툴이 반환하는 것을 정화하나요?
sanitize 판정은 툴 호출
인자에서만 매치된 부분 문자열을 편집합니다, 툴이 반환하는 콘텐츠는
결코 아님. inbound 표면(아직 호출 시점 인자 없음)에서는 sanitize가
deny로 격상됩니다.자율성 수준은 무엇을 하나요?
자율성 수준은 무엇을 하나요?
autonomy_*
행을 씁니다:•
balanced(권장 시작) — 기본 audit, 파괴적 셸 deny, audit
전용 PII Shield(PII 플래그).•
tight — 기본 거부, 파괴적 셸 deny, SSRF 형태 fetch 툴 deny,
PII Shield + Secrets Blocker 강제.•
permissive — 관찰만.원클릭 실행 취소는 적용이 쓴 감사 스냅샷에서 이전 상태를 복원합니다. 단일 단계입니다 — 이후 적용(또는 수동 정책 편집)이 그 스냅샷을 대체하면 실행 취소를 사용할 수 없습니다. 강제 모드 참조.
SSRF 프리셋이 사설 IP와 클라우드 메타데이터를 차단하나요?
SSRF 프리셋이 사설 IP와 클라우드 메타데이터를 차단하나요?
tight 자율성 SSRF 프리셋은 흔한 fetch 형태 툴
이름(http_fetch, web_search, fetch_url, request)을 거부합니다.
목적지로 거부하려면 — RFC-1918 범위, 클라우드 메타데이터 IP, 특정
CIDR — 여러분 자신의 egress-표면 호스트/CIDR 거부 규칙을 작성하세요.
어떤 프리셋도 여러분을 위해 CIDR 규칙을 제공하지 않습니다.
Egress 및 데이터 유출 참조.트래픽을 깨뜨리지 않고 정책을 어떻게 롤아웃하나요?
트래픽을 깨뜨리지 않고 정책을 어떻게 롤아웃하나요?
audit로 강등하고, 이유에 [shadow] would …를 접두합니다.
Events와 Runs 뷰를 보고, 그 다음 shadow를 꺼서 강제하세요.
워크스페이스 수준 observe mode(firewall_observe_mode)는 보완적 발견
다이얼입니다 — 커버되지 않은 호출을 Discovered Tools의 갭으로
로깅합니다.사람 승인(HITL)은 어떻게 작동하나요?
사람 승인(HITL)은 어떻게 작동하나요?
pending_approval 판정은 승인 id와 함께 400 firewall_approval_pending을
반환합니다. 검토자가 콘솔에서(Developer+) 또는 HMAC 웹훅 콜백
(POST /api/v1/firewall/approvals/:id/callback)을 통해 해결합니다.
에이전트는 GET /api/v1/firewall/approvals/:id를 폴링하고 일회용
X-OrcaRouter-Firewall-Approval 헤더와 함께 원래 호출을 재제출합니다.
위험한 툴 호출 참조.이상 탐지는 무엇을 찾나요?
이상 탐지는 무엇을 찾나요?
retry_loop과 novel_path(이전에 본 적 없는 툴 간 전이). 피드는
Member 판독 가능합니다; 이상을 최대 7일까지 스누즈하세요.
과도한 에이전시 참조.4. MCP, 키 및 게이트웨이 접근
MCP 서버는 어떻게 통제되나요?
MCP 서버는 어떻게 통제되나요?
name, endpoint, none/bearer/oauth/basic의
auth_mode, 암호화된 자격 증명) MCP 게이트웨이가 mcp 표면의 모든
tools/call을 디스패치 전에 평가합니다. Health가 추적됩니다
(ok/degraded/down); POST /api/workspace/firewall/mcp_servers/:id/probe로
프로브하세요. 프로브는 또한 서버의 광고된 툴 스키마를 베이스라인화합니다 —
이후의 드리프트는 그 schema status를 verified에서 changed로
뒤집습니다(“rug-pull” 신호), 그러면 여러분은 재베이스라인(승인)하거나
서버를 quarantine합니다. 그래서 거버넌스는 호출별 평가 플러스
스키마 무결성 추적과 skill 위험 밴드입니다.
Firewall MCP와
MCP 툴 포이즈닝 참조.위험하거나 자동 탐지된 skill에는 어떻게 되나요?
위험하거나 자동 탐지된 skill에는 어떻게 되나요?
allow / quarantine /
block의 강제 모드를 가진 위험 밴드로 스캔됩니다. 격리된 skill은
승인을 위해 보류됩니다; 자동 탐지된 skill은 사람이 검토할 때까지 격리된
채로 유지됩니다. 모드는 규칙 판정 위에 올라탑니다.어떤 키 필드가 에이전트를 잠그나요?
어떤 키 필드가 에이전트를 잠그나요?
model_limits(+ model_limits_enabled), allow_ips,
credit_limit_usd(0 = 무제한), expired_time(-1 = 결코 안 됨),
environment, guardrail_id, firewall_policy_id, 그리고
is_firewall_gateway. 최소 에이전시를 위해 결합하세요 —
Scope, keys & policies
참조. 키는 표시 시 마스킹됩니다.왜 `/api/v1/firewall/*`에서 403을 받나요?
왜 `/api/v1/firewall/*`에서 403을 받나요?
POST /evaluate, POST /evaluate_plan,
ANY /mcp)는 is_firewall_gateway=true인 키를 요구합니다 — 여러분의
sk-orca-… 릴레이 키가 아니라 전용 firewall-gateway-scoped 토큰. 하나를
발급하고 그 평문을 읽는 것은 **Admin+**입니다.구성과 호출의 차이는 무엇인가요?
구성과 호출의 차이는 무엇인가요?
/v1/* 릴레이 트래픽만 sk-orca-… 키를 사용합니다;
/api/v1/firewall/* 게이트웨이 훅만 firewall-gateway-scoped 토큰을
사용합니다.5. 컴플라이언스, 거주지 및 데이터
어떤 프레임워크가 다뤄지나요?
어떤 프레임워크가 다뤄지나요?
/api/compliance/*에서
탐색하세요.설치/리포트는 왜 게이트되나요?
설치/리포트는 왜 게이트되나요?
POST /api/compliance/packs/:key/install)는 그 다음 편집할 수 있는
실제 guardrail + firewall 정책을 구체화합니다.컴플라이언스 리포트가 검증 가능한가요?
컴플라이언스 리포트가 검증 가능한가요?
데이터 거주지는 실제로 무엇을 고정하나요?
데이터 거주지는 실제로 무엇을 고정하나요?
us, eu, uk, ap,
cn, global)이며, PUT /api/compliance/residency(Admin)를 통해 설정
가능; 교차 지역 읽기는 보류됩니다. 여러분의 추론 데이터의 지오 핀은
아닙니다.
책임 범위 참조.로그는 얼마나 오래 유지되고, 데이터를 어떻게 삭제하나요?
로그는 얼마나 오래 유지되고, 데이터를 어떻게 삭제하나요?
