rm -rf / mô hình dội vào một shell tool, một UNION SELECT nó phát ra
cho một SQL runner thực thi. Một chính sách nội dung chỉ nghĩ về PII hoặc
secret bỏ lỡ cả bốn. Danh mục preset Agent tồn tại chính xác cho hình
dạng này — các quy tắc regex tất định block request hoặc phản hồi
trước khi một tool downstream từng hành động trên nó.
Đây là trang đích tập trung cho trường hợp dùng agentic. Về engine
guardrail hoàn chỉnh — mọi loại quy tắc, trường, giai đoạn, và route —
xem tài liệu tham khảo Guardrails.
1. Tại sao guardrail agent là một bề mặt riêng biệt
Một guardrail sàng lọc nội dung — văn bản trong request và văn bản trong phản hồi. Đối với một agent, văn bản đó trở thành một hành động: URL được fetch, markdown được render, dòng shell được chạy, SQL được thực thi. Nên cùng engineblock / mask bạn dùng cho PII làm nhiệm vụ kép ở
đây — nó chặn một payload tại gateway trước khi lớp tool của agent có thể
biến nó thành một hệ quả phụ.
Danh mục Agent có bốn preset, mỗi cái một quy tắc regex với hành
động block, chia trên hai giai đoạn:
URL Filter — input, block
URL Filter — input, block
Block bất kỳ URL
http(s) nào trên request. Dùng nó cho các luồng
agent nơi URL đi ra ngoài phải được allowlist thay vì mở. Pattern được
gieo match bất kỳ URL nào; chỉnh sửa regex để cho phép các domain cụ
thể.Markdown Image Block — output, block
Markdown Image Block — output, block
Block các nhúng ảnh markdown (
) trong phản hồi của mô
hình. Phòng thủ chống exfiltration render-ảnh trên các client tự nạp
ảnh từ xa — một kênh rò-dữ-liệu kinh điển nơi một URL ảnh được render
lén đưa dữ liệu ra ngoài.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Block các pattern shell-injection rõ ràng trong request (
rm -rf /, curl … | sh, wget … | bash, leo thang sudo). Dùng nó cho các
luồng agent có thể chuyển tiếp input người dùng vào một shell tool.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Block phản hồi mô hình mang theo payload SQL-injection kinh điển
(
UNION SELECT, OR 1=1, DROP TABLE, các dấu kết thúc comment).
Phòng thủ theo chiều sâu cho các tool tự thực thi SQL mà mô hình tạo
ra.Hai preset sàng lọc input, hai sàng lọc output. URL Filter và Tool
Call Shell Block kích hoạt trên request — trước khi mô hình chạy,
trước khi bất kỳ quota nào được đo. Markdown Image Block và SQL Injection
in Output kích hoạt trên phản hồi — sau khi mô hình trả lời, trước khi
nội dung đến client hoặc lớp tool của nó. Biết một rủi ro nằm ở giai đoạn
nào là cả ván cờ; xem
Giai đoạn input và
Giai đoạn output.
2. Áp dụng một guardrail agent trong console
Mọi bước ở đây là một hành động console trên gateway được lưu trữ dưới phiên của riêng bạn. Tạo và chỉnh sửa guardrails yêu cầu Developer+ trong workspace. Chỉ cuộc gọi/v1/* cuối cùng dùng một
relay key sk-orca-... — bản thân guardrail được cấu hình hoàn toàn
trong console.
Mở template
Trong console, mở Guardrails, nhấn split-button New guardrail,
và chọn một preset từ danh mục template Agent — ví dụ Markdown
Image Block. Nó gieo quy tắc block
regex duy nhất ở giai đoạn
đúng.Đặt tên và lưu
Đặt cho nó một tên (≤ 64 ký tự), ví dụ
agent-rails, và lưu. Một
preset là một hạt giống, không phải một khóa — thêm ba quy tắc Agent
còn lại hoặc chỉnh sửa regex tự do sau đó (xem
§4).Test nó trong sandbox
Mở tab Test bên trong editor, dán một mẫu, chọn giai đoạn khớp, và
chạy chính sách hiện tại cục bộ — không có cuộc gọi thượng nguồn,
không quota (xem §3).
Gắn một key
Chỉnh sửa một API key và chọn
agent-rails từ dropdown Guardrail
(đặt guardrail_id trên key), hoặc đánh dấu nó là mặc định
workspace. Xem
Gắn vào một key và
Mặc định tài khoản.3. Chứng minh nó trước khi bạn gắn
Chứng minh quy tắc kích hoạt trước khi bất kỳ key nào trỏ vào nó. Mở tab Test, chọn giai đoạn output, và dán một phản hồi mà một trang bị kẻ tấn công đầu độc có thể đã dụ mô hình phát ra:4. Kết hợp và tinh chỉnh các quy tắc
Bốn preset là hạt giống. Động tác phổ biến là kết hợp chúng thành một guardrailagent-rails và siết chặt mỗi regex theo stack của bạn:
Allowlist URL
Bắt đầu từ URL Filter, rồi chỉnh sửa
regex để nó block mọi URL
trừ các domain được phê chuẩn của bạn — đảo ngược match thành một
allowlist thay vì một block phủ định.Soạn detector của riêng bạn
Thêm một quy tắc
regex cho
bất kỳ hình dạng payload nào tool của bạn quan tâm — pattern RE2, thời
gian tuyến tính, không backreference. Pattern biên dịch một lần và
cache giữa các request.5. Một block trông như thế nào
Mỗi preset Agent dùng hành động block. Một request bị block trả về HTTP 400 với mã lỗiguardrail_blocked và một thông điệp nêu tên
guardrail và quy tắc đã kích hoạt:
guardrail_blocked.
6. Guardrails là nội dung; firewall là lời gọi tool
Guardrail agent là một lớp đầu tiên mạnh mẽ, nhưng chúng suy luận về chuỗi, không phải ngữ nghĩa tool. Chúng block một dòng shell trong nội dung — chúng không hiểu rằng mô hình đã phát ra mộttool_call có
cấu trúc tới một tool hủy hoại, hoặc rằng một request đi ra ngoài đang
hướng tới một IP metadata.
Lớp lời-gọi-tool đó là Firewall: nó đánh giá các
tool_calls mô hình phát ra, MCP tools/call, và egress đi ra ngoài với
các verdict như allow / audit / deny / pending_approval. Hai cái
kết hợp — guardrails sàng lọc văn bản, firewall quản trị hành động.
Firewall
Quản trị các lời gọi tool mô hình phát ra, lời gọi MCP, và egress với
các verdict allow / audit / deny / approval.
Guardrails so với Firewall
Khi nào dùng tới một guardrail nội dung so với một firewall lời-gọi-tool
— và cách chạy cả hai.
Bảo mật AI agent
Control stack agent đầy đủ: nội dung, tool, MCP, và egress.
Quyền hạn quá mức
Mối đe dọa các rail này giải quyết — một agent làm nhiều hơn nó nên.
7. Xem cái gì đã kích hoạt
Mỗi quy tắc kích hoạt ghi lại một match — loại quy tắc, hành động, giai đoạn, và một chuỗi chi tiết — hiện ra trong feed Matches của workspace. Bản thân chuỗi con đã match được ghi lại chỉ khi Log raw content được bật, mà mặc định tắt. Nhóm và lọc feed theo guardrail, loại quy tắc, và hành động để theo dõi tỷ lệ kích hoạt quy tắc agent của bạn và tinh chỉnh dương tính giả. Xem Matches feed, Logging & quyền riêng tư, và Tinh chỉnh dương tính giả.8. Đi đâu tiếp theo
Quy tắc giai đoạn output
Cách sàng lọc phản hồi hoạt động cho Markdown Image Block và SQL
Injection in Output.
Regex detector
Soạn các pattern RE2 của riêng bạn để mở rộng các quy tắc Agent.
Data exfiltration
Kênh exfil mà Markdown Image Block đóng lại.
Lời gọi tool nguy hiểm
Tại sao một content rail đơn lẻ không đủ — ghép nó với firewall.
