/v1/* mà key đó thực hiện đều được sàng lọc —
trước khi mô hình thấy prompt và sau khi mô hình trả lời — mà không cần
triển khai lại và không đổi SDK.
Trang này là trung tâm cho mục Guardrails: guardrail là gì, các loại quy
tắc, các giai đoạn và hành động, và cách một chính sách gắn vào một key.
Mỗi nhánh đi sâu hơn. Để xem tham chiếu engine đầy đủ, xem
Guardrails.
1. AI guardrails làm gì trên gateway
Hầu hết các team tìm đến guardrails để giữ dữ liệu nhạy cảm ra khỏi prompt (PII, secrets), để kiểm soát nội dung không an toàn (jailbreak, ý đồ prompt-injection), hoặc để thỏa mãn một kiểm soát compliance. Một guardrail là câu trả lời của gateway: một chính sách có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input của request và output của mô hình. Vì liên kết nằm trên API key trong gateway — không phải trong ứng dụng của bạn — chỉnh sửa một guardrail dịch chuyển mọi key đã gắn ở lần gọi kế tiếp. Code của bạn vẫn gọi/v1/chat/completions y như trước.
Guardrails là chính sách nội dung (văn bản vào, văn bản ra).
Agent Firewall đồng hành là chính sách tool —
nó kiểm soát những lời gọi tool nào mà một agent được phép thực hiện. Cả
hai phối hợp với nhau; xem
Guardrails vs. firewall.
2. Một ví dụ cụ thể
Tạo một guardrail tênpii-shield trong console
(/console/guardrails), thêm một quy tắc PII đơn lẻ — giai đoạn
input, hành động mask, các entity email, ssn — và gắn nó vào một
key. Từ đó trở đi:
Reply to [EMAIL] please trước khi
chuyển tiếp — mô hình thượng nguồn không bao giờ thấy địa chỉ. Đổi entity
ssn đó thành block và request kế tiếp chứa một SSN sẽ bị từ chối
với HTTP 400. Không thay đổi ứng dụng.
3. Quy tắc: type, stage, action
Mỗi quy tắc trả lời ba câu hỏi. Engine chạy mọi quy tắc áp dụng được và gộp chúng thành một quyết định.Type — tìm cái gì
Type — tìm cái gì
Bảy loại quy tắc. Các loại built-in có tính tất định (chuỗi/regex
thuần túy, không có mạng); các loại nâng cao gọi ra một mô hình hoặc
vendor và chạy đồng thời.
keyword— denylist literal, so khớp chuỗi con không phân biệt hoa thường.regex— một pattern RE2 (thời gian tuyến tính, không có backreference).pii— các detector entity built-in cộng với của riêng bạn. Xem §5.max_chars— giới hạn số ký tự tại một giai đoạn.external— ủy thác cho một vendor đã kết nối (Aporia, Averta, hoặc webhook của riêng bạn).llm_judge— một kiểm tra ngữ nghĩa đối với một mô hình trong workspace của bạn.grounding— chấm điểm độ trung thực của câu trả lời so với các nguồn được truy xuất trên request (RAG).
Stage — tìm ở đâu
Stage — tìm ở đâu
input (request), output (phản hồi của mô hình), hoặc both.
Các quy tắc input chạy trước lệnh gọi thượng nguồn; các quy tắc
output chạy sau khi mô hình phản hồi. Xem
giai đoạn input
và giai đoạn output.Action — làm gì
Action — làm gì
Năm hành động xuất hiện trong rule builder:
- block — từ chối cuộc gọi với HTTP 400.
- mask — redact match và cho văn bản đã làm sạch đi qua.
- flag — không thay đổi gì về traffic; chỉ ghi lại match.
- annotate — để nguyên văn bản nhưng chèn một ghi chú bảo mật lên thượng nguồn (vd: một cảnh báo CVE trước khi mô hình trả lời).
- spotlight — bọc văn bản không đáng tin đã khớp trong các dấu phân cách và bảo mô hình coi nó là dữ liệu, không phải hướng dẫn.
4. Cách một guardrail gắn và phân giải
Một guardrail liên kết với một key quaguardrail_id, hoặc một workspace
có thể đánh dấu một guardrail làm mặc định. Với bất kỳ request nào,
gateway phân giải theo thứ tự này:
- Liên kết tường minh — nếu
guardrail_idcủa key trỏ đến một guardrail tồn tại và được bật, cái đó áp dụng. Một liên kết tường minh không bao giờ fallback: tắt nó là công tắc off. - Mặc định workspace — nếu key không có liên kết, guardrail mặc định đã bật sẽ áp dụng.
- Cả hai đều không — không thực thi; request giống hệt từng byte với một workspace chưa bao giờ bật tính năng này.
Điều này khác với firewall. Một chính sách firewall đã gắn nhưng bị tắt
sẽ fallback về mặc định workspace; một guardrail đã gắn nhưng bị tắt
sẽ về không có gì. Công tắc off là theo nghĩa đen đối với guardrails.
5. PII detectors
Một quy tắcpii đi kèm một tập detector built-in đóng:
email, phone, credit_card, ssn, ip, iban, mac_address,
jwt, aws_access_key, api_key_openai, bitcoin_address — cộng với
các loại theo khu vực jp_mynumber, kr_rrn, và cn_resident_id.
Với hành động mask, mỗi match trở thành một tag có kiểu — một email
hiển thị thành [EMAIL], một SSN thành [SSN]. Bạn có thể xếp chồng tối
đa 25 entity tùy chỉnh mỗi quy tắc (một regex với checksum Luhn tùy
chọn), và định tuyến các entity khác nhau đến các hành động khác nhau
trong một quy tắc qua ghi đè theo từng entity.
6. Bộ chọn preset
New guardrail mở thẳng vào một template. Các preset được tạo ở phía server, nên console, sandbox, và tài liệu này mô tả cùng một hành vi. Bộ chọn nhóm chúng thành các danh mục:| Danh mục | Preset ví dụ | Nhánh |
|---|---|---|
| pii / secrets | PII Shield, bộ chặn secret-credential | block secrets |
| safety | prompt-injection, jailbreak, tự gây hại | prompt injection |
| compliance | GDPR, PCI, HIPAA, compliance logger | compliance logger |
| brand / cost | tục tĩu, nhắc đến đối thủ, giới hạn kích thước | brand safety · cost |
| agent | bộ lọc URL / shell-tool / SQL-in-output | agentic |
| code_security | chặn secret-file, xét duyệt license copyleft | code security |
7. Khi một guardrail block
Một request bị block trả về HTTP 400 với mã lỗiguardrail_blocked
và một thông báo nêu tên guardrail và quy tắc đã kích hoạt.
- Không tốn quota. Một block ở giai đoạn input kích hoạt trước khi đo lường; một block ở giai đoạn output hoàn trả lại quota đã tiêu trước.
- Request được đánh dấu skip-retry — chạy lại cùng một prompt sẽ chỉ bị block lại, nên gateway sẽ không lãng phí một lần retry trên kênh khác.
8. Sau khi đã hoạt động
Feed các match
Mỗi quy tắc kích hoạt ghi lại type, action, stage, và detail. Nhóm,
lọc, xuất, và đào sâu vào một match đơn lẻ.
Logging & quyền riêng tư
Chuỗi con đã khớp chỉ được ghi lại khi Log raw content bật —
tắt theo mặc định, tư thế bảo thủ về quyền riêng tư.
Versioning
Mỗi thay đổi ghi một hàng lịch sử. Diff bất kỳ hai phiên bản nào và
revert như một phiên bản mới — lịch sử không bao giờ bị mutate.
Testing & eval
Tab sandbox Test đánh giá chính sách hiện tại mà không có cuộc gọi
thượng nguồn, và một bộ harness eval chấm điểm nó đối với corpora đóng
gói sẵn hoặc tùy chỉnh.
9. Đi đâu tiếp theo
Chọn đúng loại quy tắc
Chọn đúng loại quy tắc
Hiểu mô hình
Hiểu mô hình
Ánh xạ tới các mối đe dọa
Ánh xạ tới các mối đe dọa
Tham chiếu engine đầy đủ
Tham chiếu engine đầy đủ
Guardrails — mọi trường, mọi route, các quy
tắc LLM-judge và grounding, và các vendor bên ngoài chuyên sâu.
