FAQ bảo mật - OrcaRouter

Bạn đã đọc một trang kiểm soát và còn lại một câu hỏi trước khi phát hành. Đây là faq bảo mật ai agent — các câu hỏi xuyên suốt trải khắp toàn bộ phần Zero-Trust, được trả lời ở một nơi, mỗi câu liên kết tới tham chiếu để biết chiều sâu. Nếu bạn hoàn toàn mới với phần này, hãy bắt đầu ở Bảo mật AI agent và control stack; trang này giả định bạn biết có hai mặt phẳng thực thi — Guardrails (văn bản prompt/phản hồi) và Firewall (hành động agent) — và chỉ cần đóng đinh các mép.

1. faq bảo mật ai agent — bắt đầu ở đây

Một bản đồ 30 giây về việc kiểm soát nào trả lời câu hỏi nào:

Bạn đang hỏi về…	Mặt phẳng	Đọc
Văn bản trong prompt hoặc phản hồi (PII, secret, jailbreak)	Guardrails	Guardrails
Cuộc gọi tool, MCP, egress, skill	Firewall	Firewall
Cái nào đã kích hoạt trên một `400`	Cả hai	Tại sao bị chặn?

Mọi lần chặn bảo mật trên gateway được host đều là HTTP 400 với một code máy đọc được. Đọc mã trước — nó rẽ bạn tới đúng feed. Bảng đầy đủ nằm ở Mã lỗi.

2. Guardrails — sàng lọc nội dung

Điều gì xảy ra nếu không guardrail nào phân giải trên một request?

Không gì cả. Phân giải là: guardrail_id tường minh trên key (nếu nó tồn tại và được bật) → ngược lại guardrail is_default của workspace → ngược lại không thực thi. Một lần đính tường minh bị vô hiệu là công tắc tắt — nó không fallback về mặc định. Với không gì được phân giải, request giống hệt từng byte với một workspace chưa bao giờ bật tính năng này.

Một request bị chặn có tốn quota của tôi không?

Không. Một hành động block trả về 400 guardrail_blocked và không tốn quota — một lần chặn ở giai đoạn input kích hoạt trước đo lường; một lần chặn ở giai đoạn output hoàn lại quota đã tiêu trước. Nó cũng được đánh dấu skip-retry: chạy lại đúng cùng prompt chỉ chặn lại.

Có những kiểu quy tắc và hành động nào?

Kiểu quy tắc: keyword, regex, pii, max_chars, external, llm_judge, grounding. Hành động: block (từ chối), mask (redact và chuyển tiếp), flag (chỉ ghi log, không đổi traffic). Giai đoạn: input, output, both. Xem Guardrails cho từng cái.

Những thực thể PII nào được phát hiện, và một mask trông như thế nào?

Các thực thể dựng sẵn gồm email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, cộng các kiểu khu vực (jp_mynumber, kr_rrn, cn_resident_id). Một hành động mask render một tag có kiểu — jane@acme.com → [EMAIL], một SSN → [SSN]. Bạn có thể xếp lớp tới 25 thực thể regex tùy chỉnh mỗi quy tắc (với một checksum Luhn tùy chọn) và override hành động theo từng thực thể qua entity_actions.

Masking output có được thực thi trên phản hồi streaming không?

Block output được thực thi cả hai chiều — phản hồi không streaming được sàng lọc trước khi chúng trả về, và một stream scanner cắt stream giữa chừng. Mask output hiện chỉ là không-streaming; trên một phản hồi streaming chunk đi qua không bị mask (in-band stream rewriting đang trong roadmap). Masking giai đoạn input — sanitize request trước khi model thấy nó — vẫn live bất kể. Preset PII Shield mask ở giai đoạn input hôm nay.

LLM judge tốn kém gì?

Các quy tắc keyword / regex / pii / max_chars không gọi model nào và không tính phí gì. Một quy tắc llm_judge chạy một kiểm tra ngữ nghĩa qua một model của workspace (giới hạn bởi judge_timeout_ms, fail-open mặc định) và được tính như một dòng phụ judge riêng. Một quy tắc grounding chấm độ trung thực của câu trả lời đối với các nguồn được truy xuất của request (ngưỡng mặc định 0.7) theo cùng cách.

Tôi có thể thấy một quy tắc thực sự đã khớp gì không?

Mở feed Matches (GET /api/guardrail/match, Member). Mỗi hàng ghi lại kiểu quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — và chuỗi con đã khớp chỉ khi “Log raw content” đang bật cho guardrail đó (mặc định tắt, tư thế bảo thủ về quyền riêng tư). Chặn sai? Đánh dấu nó là một false positive (POST /api/guardrail/match/:id/mark-fp, Admin).

Bạn có quét dependency để tìm CVE đã biết không?

Một guardrail có thể trang trí một prompt với một advisory bảo mật code (vd: một ghi chú CVE/SBOM trên một package được tham chiếu) mà không chặn hay mask văn bản. Đây là một lớp annotation bổ sung cho request thay vì từ chối nó — khác với các hành động block / mask / flag mà bạn soạn trực tiếp. Kết nối một scanner dưới Integrations để điều khiển nó.

3. Firewall — hành động agent

Firewall khác guardrail như thế nào về phân giải?

Một khác biệt quan trọng: một chính sách firewall đính bị vô hiệu fallback về mặc định của workspace, trong khi một guardrail đính bị vô hiệu phân giải thành không có gì. Ngoài ra cả hai đều đính qua key (firewall_policy_id / guardrail_id) và chia sẻ fallback mặc định-workspace. Xem Guardrails vs Firewall.

Các verdict và bề mặt là gì?

Verdict: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict là allow / audit / deny (audit mặc định). Bề mặt: inbound (tool được quảng bá), response (tool_calls do model phát ra), mcp (một tools/call), egress (host/IP/CIDR đi ra ngoài). Bảng thuật ngữ verdict giải mã từng cái.

`sanitize` có dọn dẹp những gì một tool trả về không?

Không — và đây là quan niệm sai phổ biến. Một verdict sanitize chỉ redact các chuỗi con đã khớp khỏi các argument của cuộc gọi tool, không bao giờ nội dung mà một tool trả về. Trên bề mặt inbound (chưa có args lúc gọi) sanitize leo thang thành một deny.

Các autonomy level làm gì?

Một công tắc đặt toàn bộ tư thế của bạn, ghi các hàng autonomy_* thật sửa được:
• balanced (khởi đầu được khuyến nghị) — mặc định audit, deny destructive shell, PII Shield ở chỉ-audit (flag PII).
• tight — default-deny, deny destructive shell, deny các tool fetch dạng SSRF, PII Shield + Secrets Blocker được thực thi.
• permissive — chỉ observe.
Hoàn tác một cú nhấp khôi phục trạng thái trước từ snapshot audit mà lần áp dụng đã ghi. Nó là một bước đơn — hoàn tác không khả dụng một khi một lần áp dụng sau (hoặc một lần sửa chính sách thủ công) đã thay thế snapshot đó. Xem Chế độ thực thi.

Preset SSRF có chặn IP riêng và cloud metadata không?

Không theo preset. Preset SSRF của autonomy tight từ chối các tên tool dạng fetch phổ biến (http_fetch, web_search, fetch_url, request). Để từ chối theo đích đến — các dải RFC-1918, IP cloud-metadata, các CIDR cụ thể — hãy soạn quy tắc deny host/CIDR trên bề mặt egress của riêng bạn. Không preset nào cung cấp quy tắc CIDR cho bạn. Xem Egress & exfiltration dữ liệu.

Làm sao để triển khai một chính sách mà không phá vỡ traffic?

Bật chế độ shadow (theo từng chính sách): chính sách đánh giá và ghi log nhưng hạ cấp mọi verdict thực thi thành audit, thêm tiền tố lý do [shadow] would …. Theo dõi các chế độ xem Events và Runs, rồi tắt shadow để thực thi. Observe mode ở cấp workspace (firewall_observe_mode) là núm khám phá bổ trợ — nó ghi log các cuộc gọi không được bao phủ như các khoảng trống trong Discovered Tools.

Phê duyệt của con người (HITL) hoạt động như thế nào?

Một verdict pending_approval trả về 400 firewall_approval_pending với một approval id. Một người duyệt giải quyết nó từ console (Developer+) hoặc qua một HMAC webhook callback (POST /api/v1/firewall/approvals/:id/callback). Agent poll GET /api/v1/firewall/approvals/:id và gửi lại cuộc gọi gốc với một header dùng một lần X-OrcaRouter-Firewall-Approval. Xem Cuộc gọi tool nguy hiểm.

Phát hiện bất thường đang tìm gì?

Các đột biến tần suất/chi phí được chấm điểm đối với một baseline giờ-trong-tuần đã học (14 ngày), cộng retry_loop và novel_path (một chuyển tiếp tool-tới-tool chưa từng thấy trước đây). Feed đọc-được-bởi-Member; tạm tắt một bất thường tới 7 ngày. Xem Excessive agency.

4. MCP, key & truy cập gateway

Các MCP server được quản trị như thế nào?

Đăng ký một server (name, endpoint, auth_mode của none/bearer/oauth/basic, credential mã hóa) và MCP gateway đánh giá mọi tools/call trên bề mặt mcp trước khi dispatch. Sức khỏe được theo dõi (ok/degraded/down); probe nó với POST /api/workspace/firewall/mcp_servers/:id/probe. Một probe cũng baseline schema tool được quảng bá của server — drift sau này lật schema status của nó từ verified sang changed (tín hiệu “rug-pull”), và bạn hoặc re-baseline (phê duyệt) hoặc quarantine server. Vậy nên quản trị là đánh giá theo-từng-cuộc-gọi cộng theo dõi tính-toàn-vẹn schema và dải rủi ro skill. Xem Firewall MCP và MCP tool poisoning.

Điều gì xảy ra với một skill rủi ro hoặc tự-phát-hiện?

Mỗi skill được quét vào một dải rủi ro với một chế độ thực thi allow / quarantine / block. Một skill bị cách ly được giữ chờ phê duyệt; các skill tự-phát-hiện vẫn bị cách ly cho tới khi một con người xem xét chúng. Chế độ này nằm trên đỉnh verdict của quy tắc.

Những trường key nào khóa chặt một agent?

model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = không giới hạn), expired_time (-1 = không bao giờ), environment, guardrail_id, firewall_policy_id, và is_firewall_gateway. Kết hợp chúng cho least agency — xem Scope, key & chính sách. Key được che khi hiển thị.

Tại sao tôi nhận 403 trên `/api/v1/firewall/*`?

Các route gateway đó (POST /evaluate, POST /evaluate_plan, ANY /mcp) yêu cầu một key có is_firewall_gateway=true — một token firewall-gateway-scoped chuyên dụng, không phải relay key sk-orca-… của bạn. Đúc một cái và đọc plaintext của nó là Admin+.

Khác biệt giữa cấu hình và gọi là gì?

Cấu hình chạy trong console — guardrail, chính sách firewall, MCP server, và compliance được quản lý dưới session/access token của bạn (UserAuth), và mọi thao tác ghi đều được gate theo vai trò (Developer+ cho ghi chính sách và guardrail). Chỉ traffic relay /v1/* của bạn dùng một key sk-orca-…; chỉ các hook gateway /api/v1/firewall/* dùng token firewall-gateway-scoped.

5. Compliance, residency & dữ liệu

Những framework nào được bao phủ?

Danh mục bao gồm SOC 2, HIPAA, GDPR, UK GDPR, EU AI Act, ISO 27001, ISO 42001, NIST AI RMF, PCI DSS, CCPA, GLBA, OWASP Top 10 cho Ứng dụng LLM (dưới dạng một ánh xạ kiểm soát), cộng các hồ sơ khu vực (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, APP của Úc, PDPA của Singapore, DORA, và một số luật bang của Mỹ). Duyệt danh mục, pack, và readiness — tất cả đều Member, miễn phí — tại /api/compliance/*.

Tại sao install/report bị gate?

Duyệt là miễn phí; cài một pack, tạo một báo cáo, đưa lên live, và đặt residency yêu cầu workspace Admin và một gói trả phí (gate phía server). Cài một pack (POST /api/compliance/packs/:key/install) hiện thực hóa các guardrail + chính sách firewall thật mà bạn sau đó có thể sửa.

Các báo cáo compliance có xác minh được không?

Có. Một báo cáo được ký Ed25519 + SHA-256 và xác minh được công khai: lấy public key (GET /api/public/compliance/pubkey), xác minh một báo cáo (POST /api/public/compliance/verify), hoặc trao cho một auditor một share link (GET /api/public/compliance/share/:token). Export là CSV / JSON / PDF.

Data residency thực sự ghim cái gì?

Đó là khu vực của artifact báo cáo compliance (us, eu, uk, ap, cn, global), đặt được qua PUT /api/compliance/residency (Admin); một lần đọc xuyên-khu-vực bị giữ lại. Nó không phải geo-pinning dữ liệu inference của bạn. Xem Trách nhiệm chia sẻ.

Log được giữ bao lâu, và tôi xóa dữ liệu như thế nào?

Retention của request-log mặc định 30 ngày và bị server kẹp ở mức tối đa cứng 180 ngày. Một lần xóa tài khoản được giữ cho một cửa sổ ân hạn (mặc định 30 ngày) trước khi một lần xóa sạch PII không thể đảo ngược chạy; lần xóa đó cascade-purge các payload request-log Mongo, guardrail match, và firewall event quy cho bạn. Lưu trữ một workspace cascade-purge cùng ba collection đó cho workspace ấy. Xem Phơi bày PII.

Một 400 từ một kiểm soát bảo mật không phải là một bug trong prompt của bạn. Đó là một chính sách đang làm việc của nó. Đừng retry — các mã này là skip-retry. Truy vết quy tắc, rồi quyết định sửa cuộc gọi hay nới chính sách: Tại sao bị chặn?.

6. Vẫn bí?

Mã lỗi

Mọi lần chặn, giữ, và từ chối mà gateway có thể trả về.

Tại sao bị chặn?

Đọc mã, mở đúng feed, tìm đúng quy tắc.

Guardrail API

Route, vai trò, và payload cho các chính sách nội dung.

Firewall API

Route console và gateway cho quản trị hành động.

Compliance API

Các endpoint danh mục, install, report, và residency.

Bảng thuật ngữ

Mọi thuật ngữ dùng xuyên suốt tài liệu Zero-Trust.

Về các mối đe dọa mà các kiểm soát này chặn, bắt đầu ở mô hình đe dọa. Để có một baseline sạch, theo Secure Agents baseline.

​1. faq bảo mật ai agent — bắt đầu ở đây

​2. Guardrails — sàng lọc nội dung

​3. Firewall — hành động agent

​4. MCP, key & truy cập gateway

​5. Compliance, residency & dữ liệu

​6. Vẫn bí?

Mã lỗi

Tại sao bị chặn?

Guardrail API

Firewall API

Compliance API

Bảng thuật ngữ

1. faq bảo mật ai agent — bắt đầu ở đây

2. Guardrails — sàng lọc nội dung

3. Firewall — hành động agent

4. MCP, key & truy cập gateway

5. Compliance, residency & dữ liệu

6. Vẫn bí?