Chuyển đến nội dung chính
Một guardrail quá háo hức tệ hơn không có guardrail — đội của bạn học cách lờ Matches feed, hoặc bạn nới lỏng quy tắc và mất cú bắt bạn thực sự muốn. OrcaRouter cho bạn một con đường giữa chính xác: đánh dấu một match đơn là một dương tính giả, và engine nhớ phát hiện đó và bỏ qua nó trên các request tương lai — mà không động vào quy tắc, nới lỏng pattern, hay phát hành một thay đổi SDK. Đây là trang đích tập trung cho workflow dương-tính-giả. Về engine guardrail đầy đủ — mọi loại quy tắc, trường, và route — xem tài liệu tham khảo Guardrails.
Mọi bước ở đây là một hành động console trên gateway được lưu trữ (api.orcarouter.ai). Bạn phân loại các match dưới phiên của riêng bạn; chỉ cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-.... Đánh dấu một match là một dương tính giả yêu cầu vai trò Admin workspace; đọc Matches feed và danh sách triệt tiêu kết quả mở cho mọi member.

1. Giảm dương tính giả guardrail mà không làm yếu quy tắc

Bản năng khi một quy tắc kích hoạt quá mức là nới lỏng nó — mở rộng một loại trừ regex, bỏ một entity, lật block thành flag. Điều đó đổi một dương tính giả lấy một lỗ hổng trong chính sách. Triệt tiêu đánh-dấu-dương-tính-giả là lựa chọn thay thế phẫu thuật:

Triệt tiêu một phát hiện

Tắt tiếng match chính xác đã kích hoạt sai — một chuỗi con cụ thể dưới một quy tắc cụ thể — không phải cả quy tắc. Hit nhạy cảm thực sự kế tiếp vẫn kích hoạt.

Không sửa quy tắc, không triển khai lại

Triệt tiêu nằm ở gateway như bộ nhớ workspace. Quy tắc giữ chính xác như được viết; ứng dụng của bạn vẫn gọi /v1/* không đổi.

Bộ nhớ toàn-workspace

Một Admin đánh dấu nó một lần; triệt tiêu được dedup trên workspace, nên traffic của mọi thành viên hưởng lợi — không fan-out theo từng key.

Có thể đảo ngược

Bỏ đánh dấu match (hoặc xóa triệt tiêu) và phát hiện kích hoạt lại trên request kế tiếp. Không có gì bị hủy.
Triệt tiêu dành cho một phát hiện bạn đã phán xét là lành tính. Nếu cả một quy tắc bị căn chỉnh sai — sai hình dạng, sai giai đoạn — sửa quy tắc và chứng minh nó trong Eval harness thay vì tắt tiếng match này đến match khác.

2. Cách một match trở thành một triệt tiêu

Mỗi quy tắc kích hoạt ghi lại một match trong Matches feed của workspace — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết. Khi bạn đánh dấu một trong các match đó là một dương tính giả, gateway dẫn xuất một fingerprint ổn định cho phát hiện và viết nó vào danh sách triệt tiêu của workspace. Trên mọi request tương lai, engine kiểm tra fingerprint của mỗi phát hiện đối với danh sách đó và bỏ qua một cái bị triệt tiêu trước khi nó có thể block, mask, hoặc flag. Hai loại phát hiện tạo ra một fingerprint:
Một phát hiện CVE / SBOM đã đi kèm với một danh tính ổn định — danh tính cảnh báo hoặc component đi theo phát hiện. Triệt tiêu một cái tắt tiếng chính xác CVE/component đó, và chỉ cái đó. Đây là trường hợp native mà kho triệt tiêu được xây cho.
Keyword, regex, PII, và các loại quy tắc tất định khác không mang một danh tính của riêng chúng, nên gateway tổng hợp một cái từ dữ liệu giống hệt ở phía ghi (cú nhấp mark-FP của bạn) và phía thực thi (request kế tiếp): guardrail, danh tính so khớp của quy tắc, và — khi bắt thô bật — bản thân các chuỗi con đã match.
Độ chính xác của fingerprint tổng hợp phụ thuộc vào Log raw content, mà mặc định tắt. Với bắt bật, fingerprint dựa trên chuỗi con đã match chính xác, nên triệt tiêu ORD-48291507 tắt tiếng số đơn hàng đó và không gì khác. Với bắt tắt, không có chuỗi con để dựa vào, nên triệt tiêu fallback về một tắt tiếng cấp-quy-tắc — nó làm im một quy tắc đó (ở giai đoạn đó) cho workspace. Fallback không bao giờ vươn ra ngoài quy tắc nó đến từ. Xem Logging & quyền riêng tư.

3. Một ví dụ cụ thể

Giả sử bạn chạy một quy tắc regex che các số đơn hàng nội bộ có hình dạng ORD- cộng tám chữ số. Một support ticket trích dẫn hợp pháp ORD-48291507 theo cách bạn đã quyết định là ổn để cho đi qua. Bạn không muốn làm yếu quy tắc — bạn chỉ muốn một số này ngừng kích hoạt.
1

Mở Matches feed

Trong console, mở Guardrails → Matches. Lọc theo guardrail và loại quy tắc để tìm hàng cho hit ORD-48291507. (Để thấy chuỗi con literal, Log raw content của guardrail phải đã bật khi match được ghi lại — nó mặc định tắt.)
2

Đánh dấu nó một dương tính giả

Mở chi tiết match và chọn Mark as false positive. Là một Admin workspace, điều này đóng dấu match và phản chiếu một triệt tiêu workspace dựa trên fingerprint của phát hiện.
3

Xác nhận nó bị triệt tiêu

Mở danh sách Suppressions — mục mới xuất hiện, được gắn nhãn với guardrail và quy tắc nó đến từ và lý do “Marked as false positive from Matches”. Mọi thành viên của workspace có thể đọc danh sách này.
4

Gửi cùng request lần nữa

Dùng relay key của bạn, gọi OrcaRouter y như trước — không có header mới, không đổi SDK:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Status of order ORD-48291507?"}
    ]
  }'
Phát hiện bị triệt tiêu được bỏ qua — ORD-48291507 đi qua — trong khi bất kỳ số đơn hàng khác nào vẫn match và được che như trước.

4. Triệt tiêu so với các lựa chọn thay thế

Triệt tiêu là một trong bốn cách để làm im một quy tắc nhiễu. Chọn cái hẹp nhất phù hợp:
Cách tiếp cậnNó thay đổi gìKhi nào dùng tới nó
Mark FPMột phát hiện (hoặc một quy tắc, bắt-tắt)Một hit lành tính cụ thể; quy tắc nếu không thì đúng
Sửa quy tắcBản thân việc so khớpSai hình dạng/giai đoạn — sửa nó, rồi eval lại
Hành động flagChỉ quan sát, không blockMột quy tắc mới bạn chưa tin
Eval harnessKhông gì trực tiếp — đoChứng minh độ chính xác trước khi bạn phát hành
Đừng che đậy một quy tắc sai có hệ thống bằng cách đánh dấu FP này đến FP khác. Nếu bạn đang triệt tiêu cùng hình dạng lặp đi lặp lại, quy tắc bị căn chỉnh sai — neo regex, thu hẹp danh sách keyword, hoặc chọn một entity PII chặt hơn, và xác minh với một lần chạy eval.

5. Đảo ngược một triệt tiêu

Không gì ở đây là một chiều:
  • Bỏ đánh dấu match — cùng hành động Admin, đảo ngược, loại bỏ dấu FP của match và (khi không match được đánh-dấu-FP nào khác còn ánh xạ tới nó) bỏ triệt tiêu. Phát hiện kích hoạt lại trên request kế tiếp.
  • Xóa triệt tiêu trực tiếp — từ danh sách Suppressions, một hành động Developer+ loại bỏ mục. Cùng hiệu ứng: phát hiện trực tiếp lại.
Vì triệt tiêu là bộ nhớ workspace, đảo ngược một cái khôi phục cú bắt cho traffic của mọi thành viên cùng lúc — giống như cách đánh dấu nó triệt tiêu cho mọi người.

6. Bề mặt API

Đây là các route console, được xác thực bởi phiên của bạn — không phải relay key. Gate vai trò mỗi hành động: đánh dấu một match FP là Admin; đọc triệt tiêu là Member; ghi triệt tiêu là Developer+.
Method & pathVai tròMục đích
GET /api/guardrail/matchMemberLiệt kê match để phân loại.
POST /api/guardrail/match/:id/mark-fpAdminĐánh dấu một match là một dương tính giả (phản chiếu một triệt tiêu).
DELETE /api/guardrail/match/:id/mark-fpAdminBỏ đánh dấu — khôi phục phát hiện.
GET /api/guardrail/suppressionsMemberLiệt kê các triệt tiêu đang hoạt động của workspace.
POST /api/guardrail/suppressionsDeveloper+Thêm một triệt tiêu trực tiếp.
DELETE /api/guardrail/suppressions/:idDeveloper+Loại bỏ một triệt tiêu.
Các endpoint mark-FP bị giới hạn tốc độ — chúng là một hành động phân loại có chủ đích, khối lượng thấp, không phải một API hàng loạt. Dùng tới Eval harness, không phải một vòng lặp các cuộc gọi mark-FP, khi bạn tinh chỉnh cả một chính sách.

7. Đi đâu tiếp theo

Matches feed

Nơi mọi quy tắc kích hoạt đáp xuống — nơi bạn phân loại từ trước khi bạn đánh dấu bất cứ thứ gì.

Testing & eval

Chứng minh độ chính xác của một quy tắc đối với một corpus trước khi bạn phát hành nó — bản sửa có hệ thống khi triệt tiêu đang xử lý một triệu chứng.

Logging & quyền riêng tư

Cách Log raw content kiểm soát liệu triệt tiêu dựa trên chuỗi con chính xác hay fallback về một tắt tiếng cấp-quy-tắc.

Tài liệu tham khảo Guardrails

Engine hoàn chỉnh — mọi loại quy tắc, hành động, và route.
Triệt tiêu quản trị các phát hiện nội dung. Để làm im một quy tắc agent firewall nhiễu — một match tool bạn đã phán xét là an toàn — đó là một bề mặt riêng biệt; xem Firewallfeed bất thường của nó. Để hiểu nơi guardrails và firewall phân chia, đọc Guardrails so với Firewall.