1. faq bảo mật ai agent — bắt đầu ở đây
Một bản đồ 30 giây về việc kiểm soát nào trả lời câu hỏi nào:| Bạn đang hỏi về… | Mặt phẳng | Đọc |
|---|---|---|
| Văn bản trong prompt hoặc phản hồi (PII, secret, jailbreak) | Guardrails | Guardrails |
| Cuộc gọi tool, MCP, egress, skill | Firewall | Firewall |
Cái nào đã kích hoạt trên một 400 | Cả hai | Tại sao bị chặn? |
2. Guardrails — sàng lọc nội dung
Điều gì xảy ra nếu không guardrail nào phân giải trên một request?
Điều gì xảy ra nếu không guardrail nào phân giải trên một request?
guardrail_id tường minh trên key (nếu nó tồn tại và được
bật) → ngược lại guardrail is_default của workspace → ngược lại không thực thi. Một
lần đính tường minh bị vô hiệu là công tắc tắt — nó không fallback về mặc định.
Với không gì được phân giải, request giống hệt từng byte với một workspace chưa bao giờ
bật tính năng này.Một request bị chặn có tốn quota của tôi không?
Một request bị chặn có tốn quota của tôi không?
block trả về 400 guardrail_blocked và không tốn quota — một lần
chặn ở giai đoạn input kích hoạt trước đo lường; một lần chặn ở giai đoạn output hoàn
lại quota đã tiêu trước. Nó cũng được đánh dấu skip-retry: chạy lại đúng cùng prompt
chỉ chặn lại.Có những kiểu quy tắc và hành động nào?
Có những kiểu quy tắc và hành động nào?
keyword, regex, pii, max_chars, external, llm_judge,
grounding. Hành động: block (từ chối), mask (redact và chuyển tiếp), flag (chỉ
ghi log, không đổi traffic). Giai đoạn: input, output, both. Xem
Guardrails cho từng cái.Những thực thể PII nào được phát hiện, và một mask trông như thế nào?
Những thực thể PII nào được phát hiện, và một mask trông như thế nào?
email, phone, credit_card, ssn, ip, iban,
mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, cộng các
kiểu khu vực (jp_mynumber, kr_rrn, cn_resident_id). Một hành động mask render
một tag có kiểu — jane@acme.com → [EMAIL], một SSN → [SSN]. Bạn có thể xếp lớp tới
25 thực thể regex tùy chỉnh mỗi quy tắc (với một checksum Luhn tùy chọn) và override
hành động theo từng thực thể qua entity_actions.Masking output có được thực thi trên phản hồi streaming không?
Masking output có được thực thi trên phản hồi streaming không?
LLM judge tốn kém gì?
LLM judge tốn kém gì?
keyword / regex / pii / max_chars không gọi model nào và không tính
phí gì. Một quy tắc llm_judge chạy một kiểm tra ngữ nghĩa qua một model của workspace
(giới hạn bởi judge_timeout_ms, fail-open mặc định) và được tính như một
dòng phụ judge riêng. Một quy tắc grounding chấm độ trung thực của câu trả lời đối
với các nguồn được truy xuất của request (ngưỡng mặc định 0.7) theo cùng cách.Tôi có thể thấy một quy tắc thực sự đã khớp gì không?
Tôi có thể thấy một quy tắc thực sự đã khớp gì không?
GET /api/guardrail/match, Member). Mỗi hàng ghi lại kiểu quy tắc,
hành động, giai đoạn, và một chuỗi chi tiết — và chuỗi con đã khớp chỉ khi “Log raw
content” đang bật cho guardrail đó (mặc định tắt, tư thế bảo thủ về quyền riêng tư).
Chặn sai? Đánh dấu nó là một false positive (POST /api/guardrail/match/:id/mark-fp,
Admin).Bạn có quét dependency để tìm CVE đã biết không?
Bạn có quét dependency để tìm CVE đã biết không?
block / mask / flag mà bạn soạn trực tiếp. Kết nối một scanner dưới Integrations để
điều khiển nó.3. Firewall — hành động agent
Firewall khác guardrail như thế nào về phân giải?
Firewall khác guardrail như thế nào về phân giải?
firewall_policy_id / guardrail_id) và chia sẻ
fallback mặc định-workspace. Xem
Guardrails vs Firewall.Các verdict và bề mặt là gì?
Các verdict và bề mặt là gì?
allow, audit, deny, sanitize, pending_approval, cap_cost.
default_verdict là allow / audit / deny (audit mặc định). Bề mặt: inbound
(tool được quảng bá), response (tool_calls do model phát ra), mcp (một
tools/call), egress (host/IP/CIDR đi ra ngoài). Bảng thuật ngữ
verdict giải mã từng cái.`sanitize` có dọn dẹp những gì một tool trả về không?
`sanitize` có dọn dẹp những gì một tool trả về không?
sanitize chỉ redact các chuỗi
con đã khớp khỏi các argument của cuộc gọi tool, không bao giờ nội dung mà một tool
trả về. Trên bề mặt inbound (chưa có args lúc gọi) sanitize leo thang thành một
deny.Các autonomy level làm gì?
Các autonomy level làm gì?
autonomy_* thật sửa được:•
balanced (khởi đầu được khuyến nghị) — mặc định audit, deny destructive
shell, PII Shield ở chỉ-audit (flag PII).•
tight — default-deny, deny destructive shell, deny các tool fetch dạng SSRF,
PII Shield + Secrets Blocker được thực thi.•
permissive — chỉ observe.Hoàn tác một cú nhấp khôi phục trạng thái trước từ snapshot audit mà lần áp dụng đã ghi. Nó là một bước đơn — hoàn tác không khả dụng một khi một lần áp dụng sau (hoặc một lần sửa chính sách thủ công) đã thay thế snapshot đó. Xem Chế độ thực thi.
Preset SSRF có chặn IP riêng và cloud metadata không?
Preset SSRF có chặn IP riêng và cloud metadata không?
tight từ chối các tên tool dạng fetch
phổ biến (http_fetch, web_search, fetch_url, request). Để từ chối theo đích đến
— các dải RFC-1918, IP cloud-metadata, các CIDR cụ thể — hãy soạn quy tắc deny host/CIDR
trên bề mặt egress của riêng bạn. Không preset nào cung cấp quy tắc CIDR cho bạn. Xem
Egress & exfiltration dữ liệu.Làm sao để triển khai một chính sách mà không phá vỡ traffic?
Làm sao để triển khai một chính sách mà không phá vỡ traffic?
audit, thêm tiền tố lý do [shadow] would …. Theo dõi
các chế độ xem Events và Runs, rồi tắt shadow để thực thi. Observe mode
ở cấp workspace (firewall_observe_mode) là núm khám phá bổ trợ — nó ghi log các cuộc
gọi không được bao phủ như các khoảng trống trong Discovered Tools.Phê duyệt của con người (HITL) hoạt động như thế nào?
Phê duyệt của con người (HITL) hoạt động như thế nào?
pending_approval trả về 400 firewall_approval_pending với một approval
id. Một người duyệt giải quyết nó từ console (Developer+) hoặc qua một HMAC webhook
callback (POST /api/v1/firewall/approvals/:id/callback). Agent poll
GET /api/v1/firewall/approvals/:id và gửi lại cuộc gọi gốc với một header dùng một lần
X-OrcaRouter-Firewall-Approval. Xem
Cuộc gọi tool nguy hiểm.Phát hiện bất thường đang tìm gì?
Phát hiện bất thường đang tìm gì?
retry_loop và novel_path (một chuyển tiếp tool-tới-tool chưa
từng thấy trước đây). Feed đọc-được-bởi-Member; tạm tắt một bất thường tới 7 ngày. Xem
Excessive agency.4. MCP, key & truy cập gateway
Các MCP server được quản trị như thế nào?
Các MCP server được quản trị như thế nào?
name, endpoint, auth_mode của none/bearer/oauth/basic,
credential mã hóa) và MCP gateway đánh giá mọi tools/call trên bề mặt mcp trước khi
dispatch. Sức khỏe được theo dõi (ok/degraded/down); probe nó với
POST /api/workspace/firewall/mcp_servers/:id/probe. Một probe cũng baseline schema tool
được quảng bá của server — drift sau này lật schema status của nó từ verified sang
changed (tín hiệu “rug-pull”), và bạn hoặc re-baseline (phê duyệt) hoặc quarantine
server. Vậy nên quản trị là đánh giá theo-từng-cuộc-gọi cộng theo dõi tính-toàn-vẹn
schema và dải rủi ro skill. Xem Firewall MCP và
MCP tool poisoning.Điều gì xảy ra với một skill rủi ro hoặc tự-phát-hiện?
Điều gì xảy ra với một skill rủi ro hoặc tự-phát-hiện?
allow / quarantine / block. Một skill bị cách ly được giữ chờ phê duyệt;
các skill tự-phát-hiện vẫn bị cách ly cho tới khi một con người xem xét chúng. Chế độ này
nằm trên đỉnh verdict của quy tắc.Những trường key nào khóa chặt một agent?
Những trường key nào khóa chặt một agent?
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd
(0 = không giới hạn), expired_time (-1 = không bao giờ), environment,
guardrail_id, firewall_policy_id, và is_firewall_gateway. Kết hợp chúng cho
least agency — xem
Scope, key & chính sách.
Key được che khi hiển thị.Tại sao tôi nhận 403 trên `/api/v1/firewall/*`?
Tại sao tôi nhận 403 trên `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan, ANY /mcp) yêu cầu một
key có is_firewall_gateway=true — một token firewall-gateway-scoped chuyên dụng, không
phải relay key sk-orca-… của bạn. Đúc một cái và đọc plaintext của nó là Admin+.Khác biệt giữa cấu hình và gọi là gì?
Khác biệt giữa cấu hình và gọi là gì?
/v1/* của bạn dùng một key sk-orca-…; chỉ các hook gateway
/api/v1/firewall/* dùng token firewall-gateway-scoped.5. Compliance, residency & dữ liệu
Những framework nào được bao phủ?
Những framework nào được bao phủ?
/api/compliance/*.Tại sao install/report bị gate?
Tại sao install/report bị gate?
POST /api/compliance/packs/:key/install) hiện thực hóa các guardrail + chính sách
firewall thật mà bạn sau đó có thể sửa.Các báo cáo compliance có xác minh được không?
Các báo cáo compliance có xác minh được không?
GET /api/public/compliance/pubkey), xác minh một báo cáo
(POST /api/public/compliance/verify), hoặc trao cho một auditor một share link
(GET /api/public/compliance/share/:token). Export là CSV / JSON / PDF.Data residency thực sự ghim cái gì?
Data residency thực sự ghim cái gì?
us, eu, uk, ap, cn,
global), đặt được qua PUT /api/compliance/residency (Admin); một lần đọc xuyên-khu-vực
bị giữ lại. Nó không phải geo-pinning dữ liệu inference của bạn. Xem
Trách nhiệm chia sẻ.Log được giữ bao lâu, và tôi xóa dữ liệu như thế nào?
Log được giữ bao lâu, và tôi xóa dữ liệu như thế nào?
