Chuyển đến nội dung chính
Một guardrail là lớp chính sách nội dung của gateway OrcaRouter. Bạn soạn một chính sách có tên trong workspace của mình, gắn nó vào một API key, và mọi cuộc gọi /v1/* mà key đó thực hiện đều được sàng lọc — trước khi mô hình thấy prompt và sau khi mô hình trả lời — mà không cần triển khai lại và không đổi SDK. Trang này là trung tâm cho mục Guardrails: guardrail là gì, các loại quy tắc, các giai đoạn và hành động, và cách một chính sách gắn vào một key. Mỗi nhánh đi sâu hơn. Để xem tham chiếu engine đầy đủ, xem Guardrails.

1. AI guardrails làm gì trên gateway

Hầu hết các team tìm đến guardrails để giữ dữ liệu nhạy cảm ra khỏi prompt (PII, secrets), để kiểm soát nội dung không an toàn (jailbreak, ý đồ prompt-injection), hoặc để thỏa mãn một kiểm soát compliance. Một guardrail là câu trả lời của gateway: một chính sách có tên, theo phạm vi workspace — một danh sách quy tắc có thứ tự mà gateway chạy đối với input của request và output của mô hình. Vì liên kết nằm trên API key trong gateway — không phải trong ứng dụng của bạn — chỉnh sửa một guardrail dịch chuyển mọi key đã gắn ở lần gọi kế tiếp. Code của bạn vẫn gọi /v1/chat/completions y như trước.
Guardrails là chính sách nội dung (văn bản vào, văn bản ra). Agent Firewall đồng hành là chính sách tool — nó kiểm soát những lời gọi tool nào mà một agent được phép thực hiện. Cả hai phối hợp với nhau; xem Guardrails vs. firewall.

2. Một ví dụ cụ thể

Tạo một guardrail tên pii-shield trong console (/console/guardrails), thêm một quy tắc PII đơn lẻ — giai đoạn input, hành động mask, các entity email, ssn — và gắn nó vào một key. Từ đó trở đi:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'
Gateway viết lại prompt thành Reply to [EMAIL] please trước khi chuyển tiếp — mô hình thượng nguồn không bao giờ thấy địa chỉ. Đổi entity ssn đó thành block và request kế tiếp chứa một SSN sẽ bị từ chối với HTTP 400. Không thay đổi ứng dụng.
Soạn thảo là một hành động console / management-API trên phiên của bạn — relay key sk-orca-... chỉ dành cho traffic /v1/*, không bao giờ để chỉnh sửa chính sách. Tạo hoặc chỉnh sửa một guardrail yêu cầu vai trò Developer+.

3. Quy tắc: type, stage, action

Mỗi quy tắc trả lời ba câu hỏi. Engine chạy mọi quy tắc áp dụng được và gộp chúng thành một quyết định.
Bảy loại quy tắc. Các loại built-in có tính tất định (chuỗi/regex thuần túy, không có mạng); các loại nâng cao gọi ra một mô hình hoặc vendor và chạy đồng thời.
  • keyword — denylist literal, so khớp chuỗi con không phân biệt hoa thường.
  • regex — một pattern RE2 (thời gian tuyến tính, không có backreference).
  • pii — các detector entity built-in cộng với của riêng bạn. Xem §5.
  • max_chars — giới hạn số ký tự tại một giai đoạn.
  • external — ủy thác cho một vendor đã kết nối (Aporia, Averta, hoặc webhook của riêng bạn).
  • llm_judge — một kiểm tra ngữ nghĩa đối với một mô hình trong workspace của bạn.
  • grounding — chấm điểm độ trung thực của câu trả lời so với các nguồn được truy xuất trên request (RAG).
input (request), output (phản hồi của mô hình), hoặc both. Các quy tắc input chạy trước lệnh gọi thượng nguồn; các quy tắc output chạy sau khi mô hình phản hồi. Xem giai đoạn inputgiai đoạn output.
Năm hành động xuất hiện trong rule builder:
  • block — từ chối cuộc gọi với HTTP 400.
  • mask — redact match và cho văn bản đã làm sạch đi qua.
  • flag — không thay đổi gì về traffic; chỉ ghi lại match.
  • annotate — để nguyên văn bản nhưng chèn một ghi chú bảo mật lên thượng nguồn (vd: một cảnh báo CVE trước khi mô hình trả lời).
  • spotlight — bọc văn bản không đáng tin đã khớp trong các dấu phân cách và bảo mô hình coi nó là dữ liệu, không phải hướng dẫn.
Xem Hành động. Dùng flag để đo lường một quy tắc trên traffic thật trước khi bạn thực thi nó.

4. Cách một guardrail gắn và phân giải

Một guardrail liên kết với một key qua guardrail_id, hoặc một workspace có thể đánh dấu một guardrail làm mặc định. Với bất kỳ request nào, gateway phân giải theo thứ tự này:
  1. Liên kết tường minh — nếu guardrail_id của key trỏ đến một guardrail tồn tại và được bật, cái đó áp dụng. Một liên kết tường minh không bao giờ fallback: tắt nó là công tắc off.
  2. Mặc định workspace — nếu key không có liên kết, guardrail mặc định đã bật sẽ áp dụng.
  3. Cả hai đều không — không thực thi; request giống hệt từng byte với một workspace chưa bao giờ bật tính năng này.
Điều này khác với firewall. Một chính sách firewall đã gắn nhưng bị tắt sẽ fallback về mặc định workspace; một guardrail đã gắn nhưng bị tắt sẽ về không có gì. Công tắc off là theo nghĩa đen đối với guardrails.
Hướng dẫn: tạo guardrail đầu tiên, gắn vào một key, đặt một mặc định tài khoản.

5. PII detectors

Một quy tắc pii đi kèm một tập detector built-in đóng: email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address — cộng với các loại theo khu vực jp_mynumber, kr_rrn, và cn_resident_id. Với hành động mask, mỗi match trở thành một tag có kiểu — một email hiển thị thành [EMAIL], một SSN thành [SSN]. Bạn có thể xếp chồng tối đa 25 entity tùy chỉnh mỗi quy tắc (một regex với checksum Luhn tùy chọn), và định tuyến các entity khác nhau đến các hành động khác nhau trong một quy tắc qua ghi đè theo từng entity.
Điểm khởi đầu chìa-khóa-trao-tay là preset PII Shield — một quy tắc pii đơn lẻ, mask, giai đoạn both. Masking ở giai đoạn input viết lại request trước mô hình (streaming hay không); masking output viết lại phản hồi chỉ trên các phản hồi không streaming — viết lại output in-stream nằm trong lộ trình. Xem PII Shield, entity tùy chỉnh, và masking formats.

6. Bộ chọn preset

New guardrail mở thẳng vào một template. Các preset được tạo ở phía server, nên console, sandbox, và tài liệu này mô tả cùng một hành vi. Bộ chọn nhóm chúng thành các danh mục:
Danh mụcPreset ví dụNhánh
pii / secretsPII Shield, bộ chặn secret-credentialblock secrets
safetyprompt-injection, jailbreak, tự gây hạiprompt injection
complianceGDPR, PCI, HIPAA, compliance loggercompliance logger
brand / costtục tĩu, nhắc đến đối thủ, giới hạn kích thướcbrand safety · cost
agentbộ lọc URL / shell-tool / SQL-in-outputagentic
code_securitychặn secret-file, xét duyệt license copyleftcode security
Một preset là hạt giống, không phải khóa — áp dụng nó, rồi chỉnh sửa tự do. Thêm điểm khởi đầu nằm dưới templates.

7. Khi một guardrail block

Một request bị block trả về HTTP 400 với mã lỗi guardrail_blocked và một thông báo nêu tên guardrail và quy tắc đã kích hoạt.
  • Không tốn quota. Một block ở giai đoạn input kích hoạt trước khi đo lường; một block ở giai đoạn output hoàn trả lại quota đã tiêu trước.
  • Request được đánh dấu skip-retry — chạy lại cùng một prompt sẽ chỉ bị block lại, nên gateway sẽ không lãng phí một lần retry trên kênh khác.
Trên streaming, block được thực thi nỗ lực tốt nhất — một scanner đệm một lượng nhỏ lookahead và cắt stream khi một quy tắc kích hoạt, nên các byte đã được flush không thể bị thu hồi. Mask trên output chỉ áp dụng cho các phản hồi không streaming — trên một phản hồi streaming, gateway tính mask nhưng không chuyển tiếp văn bản đã redact; viết lại output in-stream nằm trong lộ trình. (Masking ở giai đoạn input đang hoạt động trên cả streaming lẫn không streaming.) Xem lỗi guardrail_blockedstreaming coverage.

8. Sau khi đã hoạt động

Feed các match

Mỗi quy tắc kích hoạt ghi lại type, action, stage, và detail. Nhóm, lọc, xuất, và đào sâu vào một match đơn lẻ.

Logging & quyền riêng tư

Chuỗi con đã khớp chỉ được ghi lại khi Log raw content bật — tắt theo mặc định, tư thế bảo thủ về quyền riêng tư.

Versioning

Mỗi thay đổi ghi một hàng lịch sử. Diff bất kỳ hai phiên bản nào và revert như một phiên bản mới — lịch sử không bao giờ bị mutate.

Testing & eval

Tab sandbox Test đánh giá chính sách hiện tại mà không có cuộc gọi thượng nguồn, và một bộ harness eval chấm điểm nó đối với corpora đóng gói sẵn hoặc tùy chỉnh.
Một false positive là tín hiệu để tinh chỉnh, không phải lý do để tắt quy tắc. Đánh dấu nó trong feed Matches và thu hẹp pattern — xem tinh chỉnh false positive.

9. Đi đâu tiếp theo

Guardrails — mọi trường, mọi route, các quy tắc LLM-judge và grounding, và các vendor bên ngoài chuyên sâu.