regex để bạn match hình dạng đó trên mọi cuộc gọi
rồi block, mask, hoặc flag nó, trước khi prompt đến mô hình và
trước khi phản hồi đến người dùng của bạn.
Đây là trang đích tập trung cho trường hợp dùng pattern có cấu trúc. Về
engine guardrail đầy đủ — mọi loại quy tắc, trường, và route — xem
tài liệu tham khảo Guardrails.
api.orcarouter.ai). Bạn soạn guardrail dưới phiên của riêng bạn; chỉ
cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-.... Tạo và chỉnh
sửa guardrails yêu cầu Developer+ trong workspace.1. Khi nào bạn cần một kiểm soát guardrail regex LLM
Một quy tắcregex là công cụ đúng khi thứ bạn muốn bắt có cấu trúc mà
một denylist literal không thể diễn đạt nhưng không phải là một danh
tính chuẩn mà detector pii đã bao
quát.
Mã có cấu trúc
Token kiểu định dạng
Pattern rò rỉ output
Kiểm tra rẻ, tất định
2. RE2 — thời gian tuyến tính, không backreference
pattern của một quy tắc regex là một regex Go RE2. RE2 là engine
làm một quy tắc regex an toàn để chạy trên mọi request:
So khớp thời gian tuyến tính — không backtracking thảm họa
So khớp thời gian tuyến tính — không backtracking thảm họa
Không backreference, không lookaround
Không backreference, không lookaround
\1), lookahead, hoặc lookbehind. Nếu
bạn port một pattern PCRE dựa vào những cái đó, viết lại nó không có
chúng. Character class, anchor, quantifier, alternation, và non-capturing
group đều hoạt động như kỳ vọng.Không phân biệt hoa thường và flag nằm trong pattern
Không phân biệt hoa thường và flag nằm trong pattern
(?i) cho không phân biệt hoa thường, (?m) cho multiline. Ví dụ:
(?i)\bproject-orca\b.Pattern phải biên dịch được — kiểm tra khi lưu
Pattern phải biên dịch được — kiểm tra khi lưu
3. Giải phẫu một quy tắc regex
Một quy tắcregex là quy tắc nhỏ nhất trong engine sau keyword: một
pattern, một giai đoạn, và một hành động.
| Trường | Nó làm gì |
|---|---|
pattern | Một regex Go RE2 (thời gian tuyến tính, không backreference). Phải biên dịch được. |
stage | input (request), output (response), hoặc both. |
action | block, mask, hoặc flag. |
[REDACTED] duy nhất — một quy tắc regex không có kiểu, nên nó
không render một thẻ theo từng entity như [EMAIL]. Nếu bạn muốn một thẻ
có kiểu hoặc một token thay thế tùy chỉnh, mô hình hóa hình dạng như một
entity PII tùy chỉnh thay
vào đó.
4. Một ví dụ cụ thể
Giả sử các số đơn hàng nội bộ của bạn trông nhưORD- theo sau bởi tám
chữ số, và bạn không bao giờ muốn một cái dội lại trong phản hồi của
một mô hình. Thêm một quy tắc regex duy nhất trên giai đoạn output:
Tạo một guardrail
order-id-filter.Thêm một quy tắc regex
ORD-\d{8}. Lưu.Test nó trong sandbox
output, và chạy chính
sách hiện tại cục bộ — không có cuộc gọi thượng nguồn, không quota:Gắn một key
order-id-filter từ dropdown
Guardrail (đặt guardrail_id trên key), hoặc đánh dấu guardrail là
mặc định workspace. Xem
Gắn vào một key và
Mặc định tài khoản.5. Phạm vi giai đoạn và streaming
Hành động bạn chọn tương tác với việc phản hồi có stream hay không:| Hành động | Non-streaming | Streaming |
|---|---|---|
block (output) | Được thực thi | Được thực thi — scanner cắt stream |
mask (output) | Được thực thi | Được thực thi — scanner viết lại buffer |
6. Chọn một hành động
Một quy tắcregex chọn một hành động cho mỗi quy tắc:
Block — từ chối cuộc gọi
Block — từ chối cuộc gọi
guardrail_blocked.
Một request bị block không tốn quota — một block giai đoạn input
kích hoạt trước khi đo lường; một block giai đoạn output hoàn lại quota
đã tiêu trước — và nó được đánh dấu skip-retry. Xem
lỗi guardrail_blocked.Mask — redact match
Mask — redact match
[REDACTED] và request tiếp tục với
văn bản đã làm sạch — mô hình thượng nguồn (giai đoạn input) hoặc người
dùng của bạn (giai đoạn output) không bao giờ thấy bản gốc. Xem
Hành động.Flag — chỉ quan sát
Flag — chỉ quan sát
flag, theo dõi Matches
feed, rồi thăng cấp lên mask/block khi bạn tin nó.Annotate — gắn một ghi chú
Annotate — gắn một ghi chú
Spotlight — bọc như dữ liệu không đáng tin cậy
Spotlight — bọc như dữ liệu không đáng tin cậy
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) bảo mô hình xử lý văn bản như
dữ liệu, không phải hướng dẫn — một biện pháp giảm thiểu
prompt-injection. Xem Hành động.7. Xem cái gì đã kích hoạt — và tinh chỉnh độ chính xác
Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — trong feed Matches của workspace. Một pattern quá rộng là cạm bẫy regex kinh điển —\d{8} match mọi chuỗi
tám chữ số, không chỉ số đơn hàng của bạn. Neo nó (một tiền tố cố định như
ORD-, ranh giới từ \b), theo dõi Matches feed, và đánh dấu dương tính
giả để siết chặt khi bạn đi. Để có một lưới A/B đối với một corpus —
chứng minh một pattern bắt cái nó nên bắt mà không gắn cờ traffic lành
tính — Eval harness nằm cách một
tab. Xem
Tinh chỉnh dương tính giả.
8. Đi đâu tiếp theo
Entity PII tùy chỉnh
[REDACTED] trần.Từ nhạy cảm
Hành động
Tài liệu tham khảo Guardrails
regex quản trị nội dung. Để quản trị lời gọi tool của
một agent — từ chối các hành động hủy hoại, redact đối số lời gọi tool,
yêu cầu phê duyệt — dùng Firewall và các
rule matcher của nó. Cho các chính sách mờ
mà không pattern nào có thể diễn đạt (độc hại, lạc đề, ý đồ injection),
một quy tắc llm_judge chạy một kiểm tra ngữ nghĩa đối với một mô hình
workspace. Để xem nơi regex phù hợp trong thiết kế tổng thể, đọc
Guardrails so với Firewall.