Mỗi bước ở đây là một hành động console trên gateway được host
(
api.orcarouter.ai). Cấu hình guardrail chạy dưới phiên của riêng bạn;
chỉ cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-.... Tạo và
chỉnh sửa guardrails yêu cầu Developer+ trong workspace.1. Cách thêm LLM guardrails trong năm bước
Đây là toàn bộ vòng lặp nhìn thoáng qua — mỗi bước được mở rộng bên dưới.Tạo một guardrail
Trong console, mở Guardrails và nhấn New guardrail. Đặt cho
nó một tên (≤ 64 ký tự), vd:
pii-shield.Test nó trong sandbox
Mở tab Test, dán một mẫu, và chạy chính sách cục bộ — không có
cuộc gọi thượng nguồn, không tốn quota.
Gắn nó vào một key
Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail.
Liên kết nằm trên key.
2. Tạo guardrail
Trong console, mở Guardrails và nhấn New guardrail. Một guardrail là một chính sách nội dung có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input của request và output của mô hình. Đặt tên nó làpii-shield và lưu.
3. Thêm một quy tắc
Mỗi quy tắc quyết định ba điều — tìm cái gì (một loại quy tắc), tìm ở đâu (một giai đoạn), và làm gì (một hành động). Thêm một quy tắc:- Type: PII detection (
pii) - Stage: Input (request)
- Action: Mask — redact match
- Entities:
email,phone,ssn
[EMAIL], một SSN trở thành [SSN]. Bảy loại quy tắc
(keyword, regex, pii, max_chars, external, llm_judge,
grounding) và năm hành động (block, mask, flag, annotate,
spotlight) được đề cập trong
tham chiếu. Với guardrail đầu tiên
này, một quy tắc masking là đủ.
Masking đang hoạt động trên cả hai giai đoạn. Các quy tắc giai đoạn
input che request trước khi mô hình từng thấy nó; các quy tắc giai đoạn
output che phản hồi của mô hình — trên các phản hồi không streaming và
theo từng chunk trên các phản hồi streaming — trước khi client nhận được
nó. Block cũng được thực thi trên cả hai giai đoạn. Nếu bạn muốn kiểm
soát phản hồi của mô hình, đặt giai đoạn của quy tắc thành
output
(hoặc both); xem
Quy tắc giai đoạn output.4. Test nó trong sandbox
Trước khi gắn guardrail vào bất kỳ key nào, hãy chứng minh nó làm đúng kỳ vọng. Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạninput, và chạy:
5. Gắn nó vào một key
Một guardrail không làm gì cho đến khi một key trỏ đến nó. Hai cách liên kết:Theo từng key
Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail.
Cái này đặt
guardrail_id trên key. Xem
Gắn vào một key.Mặc định workspace
Đánh dấu guardrail là mặc định của workspace để bất kỳ key nào
không có liên kết tường minh đều kế thừa nó. Xem
Mặc định tài khoản.
| Thứ tự | Cái gì áp dụng |
|---|---|
| 1 | guardrail_id tường minh của key (nếu nó tồn tại và được bật). |
| 2 | Mặc định workspace (nếu key không có liên kết). |
| 3 | Không có gì — request giống hệt từng byte với một workspace không có chính sách. |
6. Gửi một request
Dùng một key liên kết vớipii-shield, gọi OrcaRouter chính xác như
trước — không đổi SDK, không có header mới:
[EMAIL] trước khi chuyển tiếp — mô hình thượng
nguồn không bao giờ thấy địa chỉ. Đổi hành động của quy tắc thành block
và chính request kế tiếp chứa entity sẽ bị từ chối với HTTP 400
guardrail_blocked. Một request bị block không tốn quota (một block
input kích hoạt trước khi đo lường; một block output hoàn trả lại quota đã
tiêu trước) và được đánh dấu skip-retry. Xem
lỗi guardrail_blocked
để biết hình dạng phản hồi đầy đủ.
7. Đi đâu tiếp theo
Xem cái gì đã kích hoạt
Xem cái gì đã kích hoạt
Mỗi quy tắc kích hoạt ghi lại một match — type, action, stage, và
một chuỗi detail. Chuỗi con đã khớp chỉ được ghi lại khi Log raw
content bật (tắt theo mặc định). Xem
Feed các match và
Logging & quyền riêng tư.
Che nhiều hơn cơ bản
Che nhiều hơn cơ bản
PII detection bao gồm
email, phone, credit_card, ssn, ip,
iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address (cộng các entity theo khu vực), và bạn có thể tự
soạn của riêng mình. Xem PII Shield,
Entity PII tùy chỉnh, và
Masking formats.Bắt secrets và injection
Bắt secrets và injection
Thêm một Bộ chặn secrets hoặc
preset Prompt-Injection cơ bản
— cái sau gắn cờ các cụm từ jailbreak phổ biến để xét duyệt. Để bắt
ý đồ injection theo ngữ nghĩa thay vì theo cụm từ, thêm một quy tắc
llm_judge bên cạnh nó.Rollback một thay đổi
Rollback một thay đổi
Mỗi lần chỉnh sửa ghi một hàng lịch sử phiên bản. Mở History để
diff và revert. Xem Versioning.
Kiểm soát lời gọi tool, không chỉ văn bản
Kiểm soát lời gọi tool, không chỉ văn bản
Guardrails sàng lọc nội dung. Để kiểm soát lời gọi tool của một
agent — từ chối hành động phá hủy, giới hạn chi phí, yêu cầu phê duyệt
— dùng Firewall. Bắt đầu với
Bảo mật AI agent và
mối đe dọa dangerous-tool-calls.
