Thiếu quy gán và điều tra pháp y

Khi có gì đó trục trặc với một agent, câu hỏi đầu tiên luôn giống nhau: nó thực sự đã làm gì, và ai đã thay đổi chính sách cho phép nó? Không có một dấu vết, bạn không thể trả lời cái nào. Bạn không thể cho một auditor thấy rằng một kiểm soát đã có hiệu lực vào ngày đang xét, bạn không thể phân biệt một cuộc tấn công thật với một false positive ồn ào, và bạn không thể tái dựng lần chạy đã rò rỉ hàng dữ liệu. OrcaRouter ghi lại câu trả lời ngay khi bạn tiến hành. Mỗi prompt được sàng lọc, mỗi cuộc gọi tool, mỗi lần phê duyệt, và mỗi lần sửa chính sách đều rơi vào một bản ghi theo phạm vi workspace, có thể truy vấn — được tương quan ngược về lần chạy agent và session đã tạo ra nó. Trang này cho thấy cách dùng bản ghi đó như một audit trail cho AI agent: từ một lần chạy khả nghi đơn lẻ đến một báo cáo có chữ ký bạn trao cho một auditor.

Mọi thứ ở đây đều theo phạm vi workspace. Các thành viên thấy dấu vết của workspace của họ; không gì vượt ranh giới tenant. Dấu vết được tạo ra bởi các tính năng bạn đã cấu hình — Guardrails và Firewall — nên bật thực thi cũng bật điều tra pháp y cùng lúc.

1. Bốn bản ghi đằng sau một audit trail cho AI agent

Quy gán đến từ bốn luồng độc lập, mỗi luồng tương quan với cùng một lần chạy và session để bạn có thể xoay trục giữa chúng:

Matches của Guardrail

Mọi quy tắc nội dung kích hoạt trên một request hoặc response — kiểu quy tắc, action, stage, và một chuỗi chi tiết. Member đọc được.

Events & Runs của Firewall

Mọi verdict cuộc gọi tool — allow, audit, deny, sanitize, pending_approval (giữ-chờ-phê-duyệt), và verdict đã phân giải của một quy tắc cap_cost — được gộp theo lần chạy agent và session. Developer+.

Quyết định phê duyệt

Ai đã duyệt hoặc từ chối mỗi cuộc gọi tool bị giữ lại, được ghi như một hành động audit.

Lịch sử thay đổi chính sách

Mọi lần sửa guardrail và firewall — có version, diff được, đảo ngược được — cộng với một hàng audit workspace cho mỗi thay đổi.

Mô liên kết là id lần chạy agent và session. Một match guardrail và một sự kiện firewall từ cùng một cuộc hội thoại mang theo cùng một dòng dõi lần chạy, nên “lần chạy này đã mask một email, rồi thử một fetch mà chúng ta deny, rồi được duyệt cho một lần ghi” đọc như một câu chuyện thay vì ba log rời rạc.

2. Matches của Guardrail — những gì đã được sàng lọc (Member)

Mỗi lần một quy tắc guardrail kích hoạt, gateway ghi một match. Feed nằm trên trang Guardrails (tab Matches) và đọc được bởi mọi thành viên workspace. Mỗi match ghi lại kiểu quy tắc, action đã thực hiện (block / mask / flag / annotate / spotlight), stage (input / output), một chuỗi detail, và dòng dõi lần chạy của request đã kích hoạt nó. Liệt kê nó, nhóm nó theo guardrail hoặc kiểu quy tắc, lọc theo action, đào sâu vào một match, hoặc export feed ra CSV.

Chuỗi con đã khớp (chính email, SSN) chỉ được ghi lại khi công tắc Log raw content của guardrail bật — và nó tắt theo mặc định, tư thế thận trọng về quyền riêng tư. Với nó tắt, bạn có được rằng một quy tắc đã kích hoạt và chuỗi meta detail của nó, nhưng không có giá trị thô. Bật nó theo từng guardrail khi bạn cần chuỗi con để phân loại; cài đặt này không hồi tố.

Một quy tắc ồn ào cũng là một phần của dấu vết. Đánh dấu một match như một false positive với POST /api/guardrail/match/:id/mark-fp (Admin) để tín hiệu của bạn giữ sạch và các báo cáo của bạn không đếm thừa.

3. Events & Runs của Firewall — agent đã làm gì (Developer+)

Nơi Matches phủ văn bản, Events của firewall phủ hành động. Mỗi lần đánh giá cuộc gọi tool được ghi log với verdict, surface, tên tool, và — quan trọng nhất — lần chạy agent và session mà nó thuộc về. Đọc trên Events, bản gộp Runs/sessions, và trace theo từng lần chạy yêu cầu Developer+; các feed Discovered-tools và bất thường nhẹ hơn mở cho mọi Member. Chế độ xem Runs & sessions là con ngựa thồ pháp y: nó gộp các sự kiện theo lần chạy agent thành một phân tích verdict, các tool và mô hình riêng biệt mà lần chạy chạm tới, và các dấu thời gian thấy đầu/cuối — câu trả lời “agent này thực sự đã làm gì” trong một màn hình. Vượt ra ngoài các verdict tĩnh, feed bất thường gắn cờ các sai lệch khỏi baseline giờ-trong-tuần đã học của mỗi workspace (trung bình trượt 14 ngày) — spike tốc độ và chi phí, retry_loop, và các chuyển tiếp novel_path — nên một mẫu được-phép-nhưng-bất-thường vẫn lộ diện trong bản ghi.

4. Quyết định phê duyệt — ai đã nói có (hành động audit)

Khi một quy tắc phân giải thành pending_approval, cuộc gọi bị giữ lại trở thành một cuộc xem xét ngoài luồng (xem luồng HITL của Firewall). Quyết định là một phần của dấu vết: duyệt hoặc từ chối ghi một hàng audit workspace — firewall_approval_approve hoặc firewall_approval_reject — nêu tên người thực hiện. Các quyết định theo nguyên tắc first-writer-wins và idempotent, và nếu quy tắc nền tảng thay đổi sau khi giữ lại, phần enrichment ghi chú rằng ngữ cảnh đã dịch chuyển. Nên một cuộc gọi tool bị-giữ-rồi-được-duyệt hoàn toàn quy gán được từ đầu đến cuối: sự kiện firewall cho thấy việc giữ lại, hàng audit cho thấy ai đã giải phóng nó, và cả hai tương quan với cùng một lần chạy.

5. Audit thay đổi chính sách — ai đã thay đổi các quy tắc

Một dấu vết hành vi agent chỉ đáng tin nếu bạn cũng có thể chứng minh chính sách là gì tại thời điểm đó — và ai đã thay đổi nó. Guardrails giữ một lịch sử version đầy đủ. Mỗi lần tạo, cập nhật, và xóa ghi một hàng lịch sử có version trong cùng transaction với thay đổi. Mở History trên một guardrail để thấy mọi version với tác giả và dấu thời gian, diff hai cái bất kỳ, và revert về một cái cũ hơn (revert được ghi như một version mới — lịch sử không bao giờ bị biến đổi). Các thay đổi chính sách, quy tắc, và cài đặt của Firewall mỗi cái ghi một hàng audit workspace sau khi thay đổi được commit — firewall_policy_update, firewall_rule_create, firewall_settings_update, v.v. — và các thay đổi cấp độ tự chủ (firewall_autonomy_applied / firewall_autonomy_undone) bắt snapshot trạng-thái-trước cung cấp năng lượng cho hoàn tác một cú nhấp. Secret và rule blob không bao giờ được ghi log.

Cả hai mặt phẳng đều ghi log thay đổi và giữ chính sách đảo ngược được. Nếu một lần sửa quy tắc gây ra một hồi quy, dấu vết thay đổi chính sách cho bạn biết lần sửa nào và ai đã thực hiện nó — và bạn rollback nó mà không triển khai lại bất cứ thứ gì.

6. Một ví dụ đã giải: trace một lần chạy khả nghi

Giả sử một lần chạy bị gắn cờ vì một cuộc gọi đi ra ngoài bất ngờ. Từ console, với một session Developer+:

Mở lần chạy trong Firewall → Runs

Tìm lần chạy theo id của nó. Bản gộp cho thấy mọi tool nó đã gọi và verdict trên mỗi cái — bao gồm cái deny trên tool có hình dạng fetch đã gắn cờ nó.

Xoay trục sang các sự kiện

Đào sâu vào sự kiện bị deny. Nó mang theo tên tool, quy tắc và lý do đã khớp, surface, và dòng dõi run/session — chính dòng dõi mà bạn sẽ dùng để xếp hàng phía guardrail.

Kiểm tra những gì đã được sàng lọc trên cùng lần chạy

Mở Guardrails → Matches và lọc về lần chạy đó. Nếu một quy tắc Secrets Blocker hoặc PII đã kích hoạt trên prompt, bạn giờ biết agent đã được trao tài liệu nhạy cảm trước khi nó cố exfiltrate nó.

Xác nhận chính sách đã có hiệu lực

Mở History trên guardrail và các hàng audit của chính sách firewall. Xác nhận không ai làm yếu quy tắc liên quan trước lần chạy — và nếu họ có, bạn có tác giả và dấu thời gian.

Một lần chạy, bốn bản ghi tương quan, không có khảo cổ học log-grep. Để biết chính các phòng thủ exfiltration, xem Rò rỉ dữ liệu và Cuộc gọi tool nguy hiểm.

7. Báo cáo tuân thủ có chữ ký — một dấu vết mà một auditor có thể xác minh

Để có bằng chứng bên ngoài, bề mặt Compliance biến dấu vết này thành một artifact duy nhất. Duyệt catalog framework, các pack, và sự sẵn sàng mở cho mọi Member và miễn phí; cài đặt một pack, tạo một báo cáo, lên sống, và đặt cư trú dữ liệu là các hành động Admin workspace trên một gói trả phí (cổng-server). Một báo cáo tuân thủ được ký Ed25519 với một hash nội dung SHA256 và xác minh công khai được — người nhận kiểm tra nó mà không cần một tài khoản OrcaRouter:

Endpoint	Mục đích
`GET /api/public/compliance/pubkey`	Khóa công khai để xác minh đối với.
`POST /api/public/compliance/verify`	Xác minh chữ ký + hash của một báo cáo.
`GET /api/public/compliance/share/:token`	Một link chia sẻ cho auditor tới một báo cáo.

Các báo cáo export dưới dạng CSV / JSON / PDF. Các framework bao gồm soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, EU AI Act (eu_ai_act), và OWASP Top 10 cho Ứng dụng LLM (owasp_llm), cùng nhiều cái khác — cài đặt một pack hiện thực hóa các guardrail và chính sách firewall khớp nên các kiểm soát bạn báo cáo là các kiểm soát thực sự được thực thi.

Cư trú dữ liệu ở đây là khu vực của artifact báo cáo (us / eu / uk / ap / cn / global), đặt được qua PUT /api/compliance/residency (Admin); các lần đọc xuyên khu vực bị giữ lại. Nó kiểm soát nơi artifact bằng chứng nằm — nó không phải là ghim địa lý traffic suy luận của bạn.

8. Lưu giữ và quyền được xóa

Một bản ghi pháp y có giới hạn, không phải mãi mãi. Request log mặc định 30 ngày lưu giữ và bị server kẹp về tối đa cứng 180 ngày. Khi một người dùng tự xóa, một cửa sổ ân hạn 30 ngày áp dụng, sau đó PII của họ bị quét sạch và việc cascade xóa các match guardrail, request log, và sự kiện firewall của họ — thỏa mãn các nghĩa vụ quyền-được-xóa / DSAR trong khi giữ lịch sử audit tổng gộp nguyên vẹn.

9. Đi tiếp đâu

Tham chiếu Guardrails

Matches, ghi log raw-content, lịch sử version, và toàn bộ tập quy tắc.

Tham chiếu Firewall

Events, Runs, bất thường, phê duyệt, và audit log.

Quyền tự chủ quá mức

Ràng buộc những gì một agent được phép làm trước khi nó hành động.

Chế độ thực thi

Audit, shadow, và observe — cách xây một dấu vết trước khi bạn thực thi.

​1. Bốn bản ghi đằng sau một audit trail cho AI agent

Matches của Guardrail

Events & Runs của Firewall

Quyết định phê duyệt

Lịch sử thay đổi chính sách

​2. Matches của Guardrail — những gì đã được sàng lọc (Member)

​3. Events & Runs của Firewall — agent đã làm gì (Developer+)

​4. Quyết định phê duyệt — ai đã nói có (hành động audit)

​5. Audit thay đổi chính sách — ai đã thay đổi các quy tắc

​6. Một ví dụ đã giải: trace một lần chạy khả nghi

​7. Báo cáo tuân thủ có chữ ký — một dấu vết mà một auditor có thể xác minh

​8. Lưu giữ và quyền được xóa

​9. Đi tiếp đâu

Tham chiếu Guardrails

Tham chiếu Firewall

Quyền tự chủ quá mức

Chế độ thực thi

1. Bốn bản ghi đằng sau một audit trail cho AI agent

2. Matches của Guardrail — những gì đã được sàng lọc (Member)

3. Events & Runs của Firewall — agent đã làm gì (Developer+)

4. Quyết định phê duyệt — ai đã nói có (hành động audit)

5. Audit thay đổi chính sách — ai đã thay đổi các quy tắc

6. Một ví dụ đã giải: trace một lần chạy khả nghi

7. Báo cáo tuân thủ có chữ ký — một dấu vết mà một auditor có thể xác minh

8. Lưu giữ và quyền được xóa

9. Đi tiếp đâu