Tạo guardrail đầu tiên của bạn

Cách nhanh nhất để đặt một chính sách nội dung trước mọi cuộc gọi mô hình là một guardrail — một chính sách có tên, theo phạm vi workspace mà bạn soạn một lần trong console và gắn vào một API key. Gateway sau đó sàng lọc input của request và output của mô hình ở lần gọi kế tiếp, mà không cần triển khai lại và không đổi SDK. Trang này đi qua vòng lặp đầu-cuối: tạo một guardrail, thêm một quy tắc, test nó trong sandbox, gắn nó vào một key, và gửi một request thật. Để xem tham chiếu engine đầy đủ — mọi loại quy tắc, trường, và route — xem Tham chiếu Guardrails.

Mỗi bước ở đây là một hành động console trên gateway được host (api.orcarouter.ai). Cấu hình guardrail chạy dưới phiên của riêng bạn; chỉ cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-.... Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace.

1. Cách thêm LLM guardrails trong năm bước

Đây là toàn bộ vòng lặp nhìn thoáng qua — mỗi bước được mở rộng bên dưới.

Tạo một guardrail

Trong console, mở Guardrails và nhấn New guardrail. Đặt cho nó một tên (≤ 64 ký tự), vd: pii-shield.

Thêm một quy tắc

Thêm một quy tắc PII detection tại giai đoạn input với hành động mask.

Test nó trong sandbox

Mở tab Test, dán một mẫu, và chạy chính sách cục bộ — không có cuộc gọi thượng nguồn, không tốn quota.

Gắn nó vào một key

Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail. Liên kết nằm trên key.

Gửi một request

Gọi /v1/chat/completions với key đó. Gateway áp dụng chính sách trước khi chuyển tiếp.

2. Tạo guardrail

Trong console, mở Guardrails và nhấn New guardrail. Một guardrail là một chính sách nội dung có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input của request và output của mô hình. Đặt tên nó là pii-shield và lưu.

Nút split New guardrail cũng mở thẳng vào một template. Preset PII Shield là một quy tắc pii đơn lẻ che email, phone, ssn, credit_card, và ip. Áp dụng một preset là một hạt giống, không phải khóa — chỉnh sửa nó tự do sau đó. Duyệt các template preset để có thêm điểm khởi đầu.

3. Thêm một quy tắc

Mỗi quy tắc quyết định ba điều — tìm cái gì (một loại quy tắc), tìm ở đâu (một giai đoạn), và làm gì (một hành động). Thêm một quy tắc:

Type: PII detection (pii)
Stage: Input (request)
Action: Mask — redact match
Entities: email, phone, ssn

Với hành động mask, mỗi match được thay bằng một tag có kiểu — một email trở thành [EMAIL], một SSN trở thành [SSN]. Bảy loại quy tắc (keyword, regex, pii, max_chars, external, llm_judge, grounding) và năm hành động (block, mask, flag, annotate, spotlight) được đề cập trong tham chiếu. Với guardrail đầu tiên này, một quy tắc masking là đủ.

Masking đang hoạt động trên cả hai giai đoạn. Các quy tắc giai đoạn input che request trước khi mô hình từng thấy nó; các quy tắc giai đoạn output che phản hồi của mô hình — trên các phản hồi không streaming và theo từng chunk trên các phản hồi streaming — trước khi client nhận được nó. Block cũng được thực thi trên cả hai giai đoạn. Nếu bạn muốn kiểm soát phản hồi của mô hình, đặt giai đoạn của quy tắc thành output (hoặc both); xem Quy tắc giai đoạn output.

4. Test nó trong sandbox

Trước khi gắn guardrail vào bất kỳ key nào, hãy chứng minh nó làm đúng kỳ vọng. Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạn input, và chạy:

Reply to jane@acme.com please

Sandbox đánh giá chính sách hiện tại cục bộ và trả về verdict cộng với văn bản đã render:

Reply to [EMAIL] please

Không có gì được gửi lên thượng nguồn và không có gì được đo lường. Để có một lưới A/B đối với một corpus các input, bộ harness Eval nằm cách một tab.

5. Gắn nó vào một key

Một guardrail không làm gì cho đến khi một key trỏ đến nó. Hai cách liên kết:

Theo từng key

Chỉnh sửa một API key và chọn guardrail từ dropdown Guardrail. Cái này đặt guardrail_id trên key. Xem Gắn vào một key.

Mặc định workspace

Đánh dấu guardrail là mặc định của workspace để bất kỳ key nào không có liên kết tường minh đều kế thừa nó. Xem Mặc định tài khoản.

Phân giải là tường minh và có thể dự đoán:

Thứ tự	Cái gì áp dụng
1	`guardrail_id` tường minh của key (nếu nó tồn tại và được bật).
2	Mặc định workspace (nếu key không có liên kết).
3	Không có gì — request giống hệt từng byte với một workspace không có chính sách.

Một liên kết tường minh không bao giờ âm thầm fallback. Tắt một guardrail đã gắn là công tắc off — nó không rớt xuống mặc định workspace. (Các chính sách firewall khác ở chỗ này; xem Guardrails vs. firewall.)

6. Gửi một request

Dùng một key liên kết với pii-shield, gọi OrcaRouter chính xác như trước — không đổi SDK, không có header mới:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

Gateway che email thành [EMAIL] trước khi chuyển tiếp — mô hình thượng nguồn không bao giờ thấy địa chỉ. Đổi hành động của quy tắc thành block và chính request kế tiếp chứa entity sẽ bị từ chối với HTTP 400 guardrail_blocked. Một request bị block không tốn quota (một block input kích hoạt trước khi đo lường; một block output hoàn trả lại quota đã tiêu trước) và được đánh dấu skip-retry. Xem lỗi guardrail_blocked để biết hình dạng phản hồi đầy đủ.

7. Đi đâu tiếp theo

Xem cái gì đã kích hoạt

Mỗi quy tắc kích hoạt ghi lại một match — type, action, stage, và một chuỗi detail. Chuỗi con đã khớp chỉ được ghi lại khi Log raw content bật (tắt theo mặc định). Xem Feed các match và Logging & quyền riêng tư.

Che nhiều hơn cơ bản

PII detection bao gồm email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (cộng các entity theo khu vực), và bạn có thể tự soạn của riêng mình. Xem PII Shield, Entity PII tùy chỉnh, và Masking formats.

Bắt secrets và injection

Thêm một Bộ chặn secrets hoặc preset Prompt-Injection cơ bản — cái sau gắn cờ các cụm từ jailbreak phổ biến để xét duyệt. Để bắt ý đồ injection theo ngữ nghĩa thay vì theo cụm từ, thêm một quy tắc llm_judge bên cạnh nó.

Rollback một thay đổi

Mỗi lần chỉnh sửa ghi một hàng lịch sử phiên bản. Mở History để diff và revert. Xem Versioning.

Kiểm soát lời gọi tool, không chỉ văn bản

Guardrails sàng lọc nội dung. Để kiểm soát lời gọi tool của một agent — từ chối hành động phá hủy, giới hạn chi phí, yêu cầu phê duyệt — dùng Firewall. Bắt đầu với Bảo mật AI agent và mối đe dọa dangerous-tool-calls.

Đọc Tham chiếu Guardrails để xem engine đầy đủ — các trường quy tắc, vendor bên ngoài, bộ harness eval, và API đầy đủ — hoặc security quickstart để nối guardrails và firewall với nhau cho một baseline agent.

​1. Cách thêm LLM guardrails trong năm bước

​2. Tạo guardrail

​3. Thêm một quy tắc

​4. Test nó trong sandbox

​5. Gắn nó vào một key

Theo từng key

Mặc định workspace

​6. Gửi một request

​7. Đi đâu tiếp theo

1. Cách thêm LLM guardrails trong năm bước

2. Tạo guardrail

3. Thêm một quy tắc

4. Test nó trong sandbox

5. Gắn nó vào một key

6. Gửi một request

7. Đi đâu tiếp theo