Một guardrail PII sàng lọc văn bản của prompt và phản hồi. Để kiểm soát
các hành động mà một agent thực hiện với dữ liệu — các tool fetch, các
host egress — xem Rò rỉ dữ liệu.
Hai mặt phẳng kết hợp với nhau; hầu hết các đội đều chạy cả hai.
1. Phơi nhiễm xảy ra thế nào
PII đến được một provider thượng nguồn qua traffic bình thường, có thiện ý:- Một người dùng dán thông tin liên hệ của chính họ vào một cuộc chat và ứng dụng của bạn chuyển tiếp toàn bộ tin nhắn nguyên văn.
- Một pipeline RAG truy xuất một tài liệu chứa hồ sơ khách hàng và nhồi nó vào prompt làm ngữ cảnh.
- Một agent đọc một hàng cơ sở dữ liệu và đưa các trường thô vào một argument tool hoặc một prompt tiếp theo.
- Phản hồi của mô hình nhắc lại hoặc suy luận ra PII, mà ứng dụng của bạn sau đó ghi vào log của chính nó.
2. Phòng thủ rò rỉ PII của llm bằng một guardrail PII
Một guardrail là một chính sách nội dung có tên, theo phạm vi workspace. Một quy tắcpii bên trong nó phát hiện các thực
thể nhạy cảm và áp dụng một action cho mỗi match:
| Action | Hiệu ứng |
|---|---|
mask | Thay mỗi match bằng một tag có kiểu — jane@acme.com → [EMAIL] — và chuyển tiếp văn bản đã làm sạch. Mô hình không bao giờ thấy bản gốc. |
block | Từ chối toàn bộ request với HTTP 400 guardrail_blocked. Dùng khi PII tuyệt đối không được đến provider. |
flag | Không thay đổi gì về traffic; ghi lại một match. Đo lường phơi nhiễm trước khi bạn thực thi. |
email, phone, credit_card, ssn, ip, iban, mac_address, jwt,
aws_access_key, api_key_openai, bitcoin_address, cộng với các định
danh khu vực có cổng checksum jp_mynumber, kr_rrn, và cn_resident_id.
Trên một action mask, mỗi match hiển thị dưới dạng tag có kiểu của nó —
[EMAIL], [SSN], [CREDIT_CARD], v.v. — nên cấu trúc của prompt được
giữ lại trong khi giá trị thì biến mất.
3. Ví dụ cụ thể — mask PII trên request
Khởi đầu nhanh nhất là preset PII Shield: một quy tắcpii duy nhất
mask email, phone, ssn, credit_card, và ip. Cấu hình nó trong
console — không thay đổi code, không có key trong bước này.
Tạo guardrail
Trong console, mở Guardrails và nhấn New guardrail. Chọn preset
PII Shield từ danh mục pii, hoặc tự soạn một quy tắc
pii với
action mask trên các thực thể ở trên. Lưu lại. (Ghi yêu cầu vai trò
Developer trở lên.)Chứng minh trong sandbox
Mở tab Test, dán “reply to jane@acme.com”, chọn stage
input, và
chạy. Sandbox trả về reply to [EMAIL] — cục bộ, không có cuộc gọi
thượng nguồn và không tốn quota.Gắn nó vào một key
Trong API Keys, sửa một key và chọn guardrail từ dropdown
Guardrail, hoặc đặt guardrail làm mặc định của workspace để mọi key
chưa gắn đều kế thừa nó. Liên kết nằm trên key trong gateway.
4. Mask phần lớn, block phần tệ nhất — ghi đè theo từng thực thể
Một quy tắc duy nhất có thể áp dụng các action khác nhau cho các thực thể khác nhau quaentity_actions. Mask các định danh rủi ro thấp nhưng cứng
rắn block các thực thể bạn không bao giờ muốn chuyển tiếp — một quy tắc thay
vì ba quy tắc chồng chéo:
guardrail_blocked thay vào đó.
Một request bị block không tốn quota — một block ở stage input kích hoạt
trước khi đo lường — và được đánh dấu skip-retry. Mỗi khóa entity_actions
phải là một thực thể được khai báo trên quy tắc (built-in hoặc tùy chỉnh);
action của nó được kiểm tra đối với tập action của quy tắc.
5. Những gì hoạt động trên streaming hôm nay
Action và stage tương tác với streaming khác nhau — hãy biết ma trận trước khi bạn phụ thuộc vào nó:Mask hoặc block ở stage input (mọi chế độ response)
Mask hoặc block ở stage input (mọi chế độ response)
Hoàn toàn trực tiếp. Prompt được sàng lọc trước cuộc gọi thượng
nguồn, nên masking và blocking hoạt động giống hệt dù response có stream
hay không. Đây là bề mặt mà PII Shield thực thi hôm nay.
Block ở stage output
Block ở stage output
Được thực thi trên cả response streaming và non-streaming. Trên một
stream, một scanner cắt stream giữa chừng và phát ra một tin nhắn thay
thế trước khi bất kỳ nội dung bị block nào đến được client; một output
block hoàn lại quota đã tiêu trước.
Mask ở stage output
Mask ở stage output
Hiện tại chỉ non-streaming. Trên một response được stream, chunk gốc
đi qua mà không bị mask — viết lại stream trong luồng là một cải tiến đã
được lên kế hoạch. Để mask response hôm nay, dùng các request
non-streaming, hoặc dựa vào masking ở stage input. Chứng minh tổ hợp
stage/stream chính xác của bạn trong tab Test trước.
6. Xem những gì đã bị bắt
Mỗi quy tắc kích hoạt đều ghi lại một match — kiểu, action, stage, và một chuỗi chi tiết của nó — hiển thị trên feed Matches của workspace (GET /api/guardrail/match, mở cho mọi thành viên). Từ đó bạn có thể nhóm,
lọc, export ra CSV, và đánh dấu false positive.
Giá trị thô không được ghi log theo mặc định. Công tắc Log raw
content của một guardrail bị tắt — tư thế thận trọng về quyền riêng tư —
nên feed Matches ghi lại rằng một quy tắc PII đã kích hoạt và thực thể nào,
nhưng không ghi chuỗi con đã khớp (chính địa chỉ email). Chỉ bật nó theo
từng guardrail khi bạn cần giá trị để phân loại; cài đặt này không hồi tố.
Bắt PII vào audit trail của chính bạn để debug một rò rỉ PII sẽ là tự đánh
bại mình.
7. Đi xa hơn
Để có đầy đủ các kiểm soát về cư trú, lưu giữ, và quyền được xóa — bao gồm cài đặt một compliance pack hiện thực hóa các guardrail này cho GDPR, HIPAA, hoặc PCI DSS — hãy bắt đầu từ các trang tham chiếu bên dưới.Tham chiếu Guardrails
Mọi kiểu quy tắc, stage, action, thực thể tùy chỉnh, versioning, và bộ
khung eval — tham chiếu chuyên sâu đằng sau trang này.
Rò rỉ secret
Người anh em hình dạng credential — token AWS, OpenAI, GitHub — bị bắt
bởi guardrail Secrets Blocker.
Output không an toàn
Sàng lọc những gì mô hình gửi lại, không chỉ những gì nó nhận.
Guardrails vs Firewall
Khi nào sàng lọc văn bản và khi nào kiểm soát hành động — và tại sao bạn
thường muốn cả hai.
