Enforcement mode: observe, shadow & enforce

Trước khi một quy tắc chặn traffic production, bạn muốn biết nó kích hoạt trên đúng thứ và không gì khác. OrcaRouter cung cấp cho bạn ba tư thế — observe, shadow, và enforce — cho phép bạn triển khai từng bước, với khả năng quan sát ở mọi bước và không có bất ngờ. Trang này giải thích mỗi tư thế có nghĩa gì về mặt cơ học, cách chuyển qua chúng, và cách autonomy level đặt tất cả trong một bước.

1. Ba tư thế nhìn tổng quan

Tư thế	Điều gì xảy ra với traffic	Cơ chế	Khi nào dùng
Observe	Tất cả traffic được cho phép; cuộc gọi không có chính sách được ghi log như khoảng trống độ phủ	Observe mode cấp workspace bật; quy tắc guardrail dùng hành động `flag`; `default_verdict` firewall là `audit`	Khám phá baseline — hiểu những gì agent thực sự làm trước khi viết một quy tắc nào
Shadow	Traffic được cho phép; một chính sách đánh giá và các block-dự-kiến được ghi log là `[shadow] would …`	Flag `shadow_mode` theo từng chính sách trên chính sách firewall	Xác thực an toàn trước khi production — xác nhận chính sách kích hoạt đúng trước khi nó chạm vào traffic
Enforce	Verdict thực tế áp dụng — deny block, sanitize redact, pending_approval giữ lại	Shadow mode tắt; hành động quy tắc guardrail đặt thành `block` / `mask`; verdict firewall hoạt động	Thực thi production sau khi bạn đã xác minh chính sách trong shadow

Yêu cầu vai trò. Mọi thành viên workspace có thể đọc chính sách, cài đặt, và chế độ xem discovered-tools; feed Events và Runs của firewall yêu cầu vai trò Developer. Thay đổi cài đặt, hành động chính sách, hoặc shadow_mode cũng yêu cầu Developer hoặc cao hơn.

2. Tư thế Observe — đo lường trước khi đặt quy tắc

Tư thế observe không phải là một công tắc đơn. Nó là sự kết hợp của ba cơ chế độc lập cùng nhau tạo ra “cho phép mọi thứ, ghi lại mọi thứ”:

Firewall observe mode (cài đặt workspace)

Khi một lời gọi tool phân giải về không có chính sách nào cả — không có gắn kết key và không có mặc định workspace — observe mode cấp workspace của firewall xác định điều gì xảy ra:

Observe mode bật: cuộc gọi được cho phép và ghi log như một khoảng trống độ phủ. Chế độ xem Discovered Tools được điền từ các sự kiện khoảng trống này, hiển thị chính xác tool nào mà agent đang chạy mà không có quy tắc nào bao phủ chúng.
Observe mode tắt: cuộc gọi được cho phép âm thầm — giống hệt byte với một workspace chưa bao giờ bật tính năng này.

Observe mode là bề mặt phát hiện khoảng trống. Nó chỉ kích hoạt khi không có chính sách nào phân giải. Nó không giống với việc có một chính sách được đặt thành audit.

Verdict `audit` của firewall (default theo từng chính sách)

Khi một chính sách có phân giải nhưng không có quy tắc nào khớp lời gọi tool, default_verdict của chính sách áp dụng. Giá trị mặc định cho default_verdict là audit — cho phép cuộc gọi và ghi lại để xem xét. Một chính sách mới không có quy tắc và không có thay đổi cấu hình không block gì và âm thầm cho phép không có gì: nó audit mọi thứ nó thấy. audit cũng là một verdict quy tắc bình thường. Một quy tắc khớp và tạo ra audit cho phép cuộc gọi đi qua và ghi lại nó — tương đương guardrail-audit-mode cho firewall.

Hành động `flag` của guardrail (hành động quy tắc)

Ở phía guardrails, hành động flag là tương đương observe: quy tắc kích hoạt, một match được ghi lại trong feed Matches, và request tiếp tục không thay đổi. Không block. Không redaction. Dùng flag khi bạn muốn đo lường một quy tắc — xem nó kích hoạt bao nhiêu lần và trên gì — trước khi cam kết với block hoặc mask.

Cùng nhau, ba cái này tạo ra tư thế observe: observe mode bắt các lời gọi tool chưa được bao phủ; verdict audit bao phủ các lời gọi tool dưới một chính sách nhưng chưa dưới một quy tắc cụ thể; hành động flag bao phủ các kiểm tra guardrail mà bạn chưa sẵn sàng thực thi.

3. Tư thế Shadow — xác thực trước khi thực thi

Shadow mode là một flag theo từng chính sách (shadow_mode: true) trên một chính sách firewall. Khi nó bật:

Chính sách đánh giá mọi lời gọi tool chính xác như nó sẽ làm trong production — quy tắc được khớp, verdict được tính toán, argument predicate được kiểm tra.
Mọi verdict thực thi (deny, sanitize, pending_approval) đều bị hạ cấp thành audit trước khi nó đến tool.
Lý do được ghi log có tiền tố [shadow] would … để bạn có thể thấy trong feed event chính xác những gì lẽ ra đã bị chặn, sanitize, hoặc giữ lại.

Shadow mode là công tắc triển khai an toàn của bạn. Viết một chính sách, bật shadow, hướng traffic thực đến nó, theo dõi các chế độ xem event và run vài giờ hoặc vài ngày, xác nhận chính sách kích hoạt trên đúng tool và không có gì bất ngờ, rồi tắt shadow mode để bắt đầu thực thi.

Guardrails không có tương đương shadow_mode ở cấp độ chính sách — dùng hành động flag theo từng quy tắc để quan sát các kiểm tra guardrail riêng lẻ trước khi chuyển sang block hoặc mask.

4. Tư thế Enforce — verdict thực tế, hậu quả thực tế

Trong tư thế enforce, không có gì bị hạ cấp:

Firewall deny → agent thấy lỗi tool (MCP) hoặc HTTP 400 firewall_blocked (bề mặt inbound). Lỗi đặt tên tool và lý do. Được đánh dấu skip-retry.
Firewall sanitize → các chuỗi con đã khớp được redact khỏi đối số tool và cuộc gọi đã làm sạch được chuyển tiếp.
Firewall pending_approval → cuộc gọi được giữ lại; agent nhận HTTP 400 firewall_approval_pending và approval id để poll.
Guardrail block → HTTP 400 guardrail_blocked, đặt tên guardrail và quy tắc đã kích hoạt. Không tốn quota.
Guardrail mask → match bị redact (vd: jane@acme.com → [EMAIL]) và request tiếp tục với văn bản đã sanitize.

Để đạt tư thế enforce: tắt shadow_mode trên chính sách firewall, và thay đổi hành động quy tắc guardrail từ flag sang block hoặc mask theo phù hợp.

5. Triển khai được khuyến nghị

Observe — khám phá những gì agent của bạn làm

Bật observe mode workspace (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Để firewall không có chính sách (hoặc một chính sách có default_verdict là audit). Thêm hành động flag vào bất kỳ quy tắc guardrail nào bạn muốn đo lường.Xem chế độ xem Discovered Tools được điền với mọi lời gọi tool mà agent của bạn thực hiện, được gắn cờ covered hoặc gap. Dùng điều này như là input để viết các quy tắc chính sách đầu tiên của bạn — bạn đang viết quy tắc cho traffic thực tế, không phải traffic giả định.Để nó chạy cho đến khi chế độ xem Discovered Tools ổn định và bạn có đủ dữ liệu để viết quy tắc có chủ đích.

Shadow — xác thực trước khi thực thi

Soạn một chính sách firewall với shadow_mode: true. Gắn nó với các key bạn muốn quản lý (hoặc đặt nó là mặc định workspace). Đối với guardrail, giữ hành động quy tắc là flag ở giai đoạn này.Chính sách giờ đây đánh giá mọi lời gọi tool thực tế và ghi log những gì nó sẽ làm. Mở chế độ xem Events và Runs và lọc theo tiền tố [shadow]. Xác nhận:

Nó kích hoạt trên các tool và pattern đối số bạn có ý định.
Nó không kích hoạt trên bất kỳ thứ gì bạn muốn cho phép (false positive).

Tinh chỉnh quy tắc, quan sát lại, lặp lại. Khi log shadow trông đúng, tiến lên.

Enforce — lật công tắc

Đặt shadow_mode: false trên chính sách. Đối với bất kỳ quy tắc guardrail nào bạn đang quan sát với flag, thay đổi hành động thành block hoặc mask theo phù hợp.Theo dõi feed Events để tìm block bất ngờ trong giờ đầu. Hành động Undo trên audit log autonomy cho phép bạn khôi phục trạng thái trước đó bằng một cú nhấp nếu bạn cần roll back.

6. Autonomy level — đặt tất cả cùng một lúc

Tinh chỉnh chính sách theo từng quy tắc là con đường chính xác. Autonomy level là con đường nhanh — một điều khiển duy nhất nguyên tử đặt tư thế Firewall và Guardrails của workspace trong một transaction, với hoàn tác một cú nhấp:

Cấp độ	Tư thế tạo ra
`permissive`	Tư thế Observe: không có chính sách thực thi, không có guardrail, observe mode workspace bật — bạn thấy mọi thứ, không có gì bị block. Ánh xạ tới bước Observe ở trên.
`balanced`	Default verdict `audit`, nhưng destructive shell bị từ chối; PII Shield chạy ở chế độ audit-only (flag PII); observe mode tắt. Tư thế khởi đầu được khuyến nghị một khi bạn biết hình dạng traffic.
`tight`	Thực thi đầy đủ: default-deny, với destructive shell và SSRF egress bị từ chối; guardrail PII Shield + Secrets Blocker được thực thi (sàng lọc request cho PII và secret); observe mode tắt.

Áp dụng qua POST /api/workspace/firewall/autonomy (Developer+). Endpoint Simulate (GET /api/workspace/firewall/simulate?level=) xem trước những gì một thay đổi level sẽ làm trước khi bạn áp dụng nó.

Autonomy level là một lớp tiện lợi trên các cơ chế được mô tả ở trên — chúng đặt default_verdict, observe mode, các quy tắc firewall, và hành động quy tắc guardrail. Chúng không toggle shadow_mode; cái đó vẫn là điều khiển thủ công theo từng chính sách. Bạn có thể luôn ghi đè các cài đặt riêng lẻ sau khi áp dụng một level.

7. Bản đồ cơ chế — cài đặt nào làm gì

Bảng này là tham chiếu có thẩm quyền. Bốn thuật ngữ là riêng biệt — đừng nhầm lẫn chúng:

Thuật ngữ	Loại	Những gì nó kiểm soát
Observe mode	Cài đặt workspace	Hành vi khi lời gọi tool phân giải về không có chính sách. Bật → ghi log như gap (Discovered Tools). Tắt → âm thầm allow.
Verdict `audit`	Verdict chính sách / quy tắc	Hành vi cho lời gọi tool dưới một chính sách khớp (hoặc rơi về mặc định). Allow + ghi lại. `default_verdict` mặc định.
Hành động `flag`	Hành động quy tắc guardrail	Kiểm tra guardrail cho phép traffic và ghi lại một match. Hành động observe-without-enforce cho guardrail.
`shadow_mode`	Flag theo từng chính sách firewall	Hạ cấp tất cả verdict thực thi (deny/sanitize/pending_approval) thành `audit` và thêm tiền tố lý do `[shadow] would …`.

Secure Agents Baseline

Tư thế khởi đầu được khuyến nghị và thiết lập năm phút cho bảo mật agent zero-trust.

Agent Firewall

Tham chiếu đầy đủ cho chính sách, quy tắc, verdict, shadow mode, và MCP gateway.

Enforcement mode không phải là nhị phân bật/tắt. Chuyển qua observe → shadow → enforce và các quy tắc của bạn được xác minh trên traffic thực tế trước khi chúng bao giờ block nó.

​1. Ba tư thế nhìn tổng quan

​2. Tư thế Observe — đo lường trước khi đặt quy tắc

​Firewall observe mode (cài đặt workspace)

​Verdict audit của firewall (default theo từng chính sách)

​Hành động flag của guardrail (hành động quy tắc)

​3. Tư thế Shadow — xác thực trước khi thực thi

​4. Tư thế Enforce — verdict thực tế, hậu quả thực tế

​5. Triển khai được khuyến nghị

​6. Autonomy level — đặt tất cả cùng một lúc

​7. Bản đồ cơ chế — cài đặt nào làm gì

Secure Agents Baseline

Agent Firewall

1. Ba tư thế nhìn tổng quan

2. Tư thế Observe — đo lường trước khi đặt quy tắc

Firewall observe mode (cài đặt workspace)

Verdict `audit` của firewall (default theo từng chính sách)

Hành động `flag` của guardrail (hành động quy tắc)

3. Tư thế Shadow — xác thực trước khi thực thi

4. Tư thế Enforce — verdict thực tế, hậu quả thực tế

5. Triển khai được khuyến nghị

6. Autonomy level — đặt tất cả cùng một lúc

7. Bản đồ cơ chế — cài đặt nào làm gì