Guardrails vs. Agent Firewall — khi nào dùng cái nào
guardrail vs firewall: phân biệt một dòng, so sánh song song, và ánh xạ mối đe dọa theo lớp để giúp bạn quyết định mặt phẳng bảo mật OrcaRouter nào bắt mỗi rủi ro.
Câu trả lời ngắn gọn: Guardrails quản lý văn bản; Firewall quản lý
hành động. Chúng bổ trợ nhau — một request chảy qua cả hai — và cách
nhanh nhất để cấu hình chúng cùng nhau là một autonomy level.Phần còn lại của trang này dành cho các trường hợp bạn cần biết lớp
nào sở hữu một mối đe dọa cụ thể.
Vai trò cần thiết. Mọi thành viên workspace có thể đọc chính sách
và feed Matches của guardrail; feed Events của firewall yêu cầu vai trò
Developer. Tạo hoặc chỉnh sửa guardrail hoặc chính sách firewall
cũng yêu cầu Developer hoặc cao hơn.
Lời gọi tool, MCP dispatch, đích đến mạng đi ra ngoài
Guardrails kích hoạt trước lời gọi thượng nguồn (trên prompt) và sau
nó (trên phản hồi). Firewall kích hoạt trên mọi lời gọi tool mà mô
hình phát ra hoặc mà agent phát ra — bất kể mô hình hoặc provider nào
phục vụ lượt đó.
4. Dùng cả hai — autonomy level đặt chúng cùng nhau
Guardrails và Firewall được thiết kế để kết hợp, không cạnh tranh. Một
request đi qua cả hai mặt phẳng:
Input guardrail chạy — văn bản prompt được sàng lọc và tùy chọn
được mask.
Lời gọi mô hình — prompt (có thể đã sanitize) đến mô hình thượng
nguồn.
Firewall — mọi lời gọi tool mà mô hình phát ra đều được đánh giá.
Output guardrail chạy — văn bản phản hồi của mô hình được sàng
lọc.
Cách nhanh nhất để cấu hình cả hai cùng lúc là một autonomy level
— một cài đặt duy nhất nguyên tử ghi một chính sách Firewall và một
chính sách Guardrails cho toàn bộ workspace, với hoàn tác một cú nhấp:
Guardrails sở hữu văn bản; Firewall sở hữu hành động — chạy cả hai, để
autonomy level kết nối chúng, và siết chặt từng mặt phẳng độc lập một
khi bạn có thể thấy traffic thực tế của agent.
Guardrails
Loại quy tắc, phát hiện PII, LLM judge, eval harness, và tham chiếu
API.
Agent Firewall
Verdict, bề mặt, autonomy level, phê duyệt HITL, và tham chiếu API.