https://api.orcarouter.ai/v1/... y như
trước.
Mới với mô hình này? Đọc
Chế độ thực thi để biết mỗi tư
thế làm gì về mặt cơ học, và
baseline Secure Agents để
biết mỗi cấp độ tự chủ đặt gì. Trang này là trình tự — thứ tự bạn lật các
công tắc.
1. Ai security rollout trong ba động tác
Cả việc triển khai đánh đổi tự chủ lấy an toàn trong ba bước, mỗi bước được kiểm chứng đối với traffic trực tiếp trước bước kế tiếp:Observe
Cho phép mọi thứ, ghi log mọi thứ. Các cuộc gọi tool không được bao phủ
rơi vào Discovered Tools; các quy tắc guardrail
flag ghi lại các match
mà không thay đổi traffic. Bạn học hình dạng thực của agent của bạn.Shadow
Một chính sách thực đánh giá mọi cuộc gọi, nhưng mọi verdict thực thi bị
hạ cấp thành
audit và ghi log [shadow] would …. Bạn thấy chính xác
cái gì sẽ block — mà không có gì thực sự bị block.Enforce
Tắt shadow.
deny block, mask redact, pending_approval giữ lại. Tự
chủ đi từ rộng (balanced) sang chặt (tight), và agent của bạn được
quản lý.2. Động tác một — observe (tự chủ = permissive)
Bắt đầu rộng nhất có thể. Áp dụng cấp độ tự chủpermissive từ
Firewall → Posture (Developer+) — hoặc
POST /api/workspace/firewall/autonomy. Nó bật observe mode workspace và
không để lại chính sách thực thi nào, nên mọi cuộc gọi được cho phép và mọi
cuộc gọi không được bao phủ được ghi log như một khoảng trống độ phủ.
- Firewall → Discovered Tools (Member) — mọi tool mà agent của bạn gọi, gắn cờ covered hoặc gap. Đây là input cho các quy tắc của bạn: bạn sắp viết chính sách cho traffic thực sự xảy ra, không phải các giả định.
- Guardrails → Matches (Member) — nếu bạn đã thêm bất kỳ quy tắc hành
động
flagnào, mọi match chúng ghi lại, mà không chạm tới request.
3. Động tác hai — shadow (một chính sách thực, zero block)
Giờ soạn chính sách bạn thực sự muốn — tool glob, mệnh đề argument, danh sách egress, một mức trầncap_cost — và bật shadow_mode trước khi
bạn gắn nó. (Xây dựng quy tắc từ firewall rules;
mô hình chính sách đầy đủ nằm trong
tham chiếu Firewall.)
shadow_mode: true, deny đó và cap_cost đó đều bị hạ cấp thành
audit tại thời điểm đánh giá — engine tính verdict thực, ghi log nó với
tiền tố [shadow] would …, và cho cuộc gọi đi qua. Gắn chính sách vào các
key bạn đang triển khai (đặt firewall_policy_id trên key) hoặc đặt nó làm
mặc định workspace.
Rồi đọc Firewall → Events / Runs (Developer+) lọc theo tiền tố
[shadow] và xác nhận cả hai phía:
Nó kích hoạt nơi bạn định
Nó kích hoạt nơi bạn định
Mọi cuộc gọi
shell.exec hiển thị [shadow] would deny. Mọi lần chạy
vượt mức trần của bạn hiển thị [shadow] would cap_cost. Chính sách
thấy traffic mà bạn xây dựng nó cho.Nó KHÔNG kích hoạt nơi bạn không định
Nó KHÔNG kích hoạt nơi bạn không định
Không tool hợp lệ nào hiện ra với một verdict would-block. Đây là kiểm
tra false-positive — lý do shadow tồn tại. Nếu một tool bạn cần bị gắn
cờ, sửa quy tắc và theo dõi lại trước khi bạn từng thực thi.
4. Động tác ba — enforce (tự chủ balanced, rồi tight)
Khi shadow log trông đúng, thực thi trong hai giai đoạn, không phải một. Đừng nhảy thẳng sang default-deny. Đầu tiên,balanced. Đây là tư thế thực thi đầu tiên được khuyến nghị:
verdict mặc định firewall là audit, nhưng các hành động phá hủy nhất (như
shell phá hủy) bị deny, và guardrail PII Shield chạy chỉ-audit — nó
flag PII mà chưa mask nó. Giờ bạn đang block điều tệ nhất trong khi vẫn
quan sát phần còn lại.
Tắt shadow_mode trên chính sách của riêng bạn trong cùng động tác để
các verdict deny / cap_cost của nó go live cùng với baseline.
[shadow]. Một cuộc gọi tool bị deny trả về HTTP 400 firewall_blocked;
nó là skip-retry và tốn no token mô hình.
Rồi, tight. Một khi balanced yên tĩnh, chuyển sang default-deny. Cấp
độ tight deny theo mặc định, deny shell phá hủy và egress SSRF, và
thực thi PII Shield + Secrets Blocker — PII bị mask trên request trước
khi mô hình thấy, và secret trong các request của bạn bị block. Một prompt
bị block trả về HTTP 400 guardrail_blocked, tốn no quota, và là
skip-retry.
| Giai đoạn | Firewall (hành động) | Guardrails (văn bản) | Bạn đang chứng minh cái gì |
|---|---|---|---|
permissive | Observe; không block gì | Chỉ flag | Hình dạng traffic thực |
balanced | Audit mặc định; shell phá hủy bị deny | PII được flag | Trường hợp tệ nhất bị dừng |
tight | Default-deny; shell + tool dạng fetch (SSRF) bị deny | PII được mask, secret bị block | Zero-trust đầy đủ |
Cảnh báo streaming cho PII. Dưới
tight, PII Shield mask PII trên
request trước khi mô hình thấy — đó là live. Masking phía output của
một response streaming chưa live; một block output được thực thi trên
streaming (bộ quét cắt stream). Nếu bạn phụ thuộc vào việc redact output mô
hình, kiểm chứng tổ hợp stage/stream của bạn trong tab Test guardrail
trước. Xem Guardrails.5. Cửa thoát hiểm — hoàn tác một cú nhấp
Mọi thay đổi tự chủ là một transaction duy nhất chụp snapshot tư thế trước đó của bạn, nên bạn có thể roll thẳng lại từ Firewall → Posture (hoặcPOST /api/workspace/firewall/autonomy/undo/:audit_id). Bạn cũng có thể chỉ
re-apply một cấp độ mềm hơn — hạ tight về balanced, hoặc balanced về
permissive — bất cứ lúc nào.
6. Verdict của mỗi động tác đến từ đâu
Việc triển khai không bao giờ block thứ gì bạn không yêu cầu, vì mỗi tư thế ánh xạ tới một cơ chế tường minh, có thể quan sát:| Tư thế | Cơ chế | Kết quả |
|---|---|---|
| Observe | Workspace firewall_observe_mode bật + guardrail flag | Allow + ghi log khoảng trống / match |
| Shadow | shadow_mode theo từng chính sách | Verdict thực được tính, hạ cấp thành audit, ghi log [shadow] would … |
| Enforce | shadow_mode tắt + tự chủ tight/balanced | deny / mask / cap_cost go live |
audit, hành động flag, và
shadow_mode — là các công tắc riêng biệt, được tài liệu hóa cạnh nhau
trong Chế độ thực thi.
7. Bước tiếp theo
Chế độ thực thi
Bản đồ cơ chế đằng sau observe, shadow, và enforce.
Baseline Secure Agents
Mỗi cấp độ tự chủ đặt cái gì, và cách mô phỏng nó trước.
Thuần hóa một agent tự chủ
Bước kế tiếp một khi bạn đã thực thi: cost cap, phát hiện bất thường, và
phê duyệt.
Agent Firewall
Chính sách, quy tắc, verdict, shadow mode, và MCP gateway đầy đủ.
