Chuyển đến nội dung chính
Câu trả lời ngắn gọn: Guardrails quản lý văn bản; Firewall quản lý hành động. Chúng bổ trợ nhau — một request chảy qua cả hai — và cách nhanh nhất để cấu hình chúng cùng nhau là một autonomy level. Phần còn lại của trang này dành cho các trường hợp bạn cần biết lớp nào sở hữu một mối đe dọa cụ thể.
Vai trò cần thiết. Mọi thành viên workspace có thể đọc chính sách và feed Matches của guardrail; feed Events của firewall yêu cầu vai trò Developer. Tạo hoặc chỉnh sửa guardrail hoặc chính sách firewall cũng yêu cầu Developer hoặc cao hơn.

1. Phân biệt một dòng

LớpQuản lýThấy
GuardrailsVăn bản — những gì mô hình đọc và viếtNội dung prompt, nội dung phản hồi
Agent FirewallHành động — những gì agent làmLời gọi tool, MCP dispatch, đích đến mạng đi ra ngoài
Guardrails kích hoạt trước lời gọi thượng nguồn (trên prompt) và sau nó (trên phản hồi). Firewall kích hoạt trên mọi lời gọi tool mà mô hình phát ra hoặc mà agent phát ra — bất kể mô hình hoặc provider nào phục vụ lượt đó.

2. So sánh song song

ChiềuGuardrailsAgent Firewall
Quản lýVăn bản prompt và văn bản phản hồi mô hìnhLời gọi tool, MCP dispatch, đích đến egress, chi phí agent
ThấyMessage người dùng, system prompt, và phản hồi của mô hìnhTên tool, đối số cuộc gọi, lời gọi tool mô hình phát ra, host/IP đi ra ngoài
Gắn quaguardrail_id trên API keyfirewall_policy_id trên API key
Loại quy tắckeyword, regex, pii, max_chars, external, llm_judge, groundingTool-name glob + argument clause + egress scope + skill ownership
Ví dụ mối đe dọaPII trong prompt, API secret trong phản hồi, jailbreak, output lạc đề, ngữ cảnh quá lớnLời gọi tool nguy hiểm, SSRF, data exfiltration, vòng lặp chi phí agent mất kiểm soát, MCP server chưa được phê duyệt
Verdict / hành độngblock (HTTP 400 guardrail_blocked), mask, flagallow, audit, deny (HTTP 400 firewall_blocked), sanitize, pending_approval, cap_cost
Khi nào kích hoạtGiai đoạn input: trước lời gọi mô hình; giai đoạn output: sau khi mô hình phản hồiTrên mọi lời gọi tool mô hình phát ra hoặc agent phát ra
Shadow / observe modeKhông — guardrail kích hoạt hoặc khôngCó — shadow mode hạ cấp verdict thực thi thành audit để triển khai an toàn

3. Mối đe dọa → lớp nào

Dùng bảng này để định tuyến yêu cầu bảo mật mới đến đúng kiểm soát:
Mối đe dọaChọn
PII trong message người dùngGuardrails — quy tắc pii input (mask / block)
Secret trong phản hồi của mô hìnhGuardrails — quy tắc secrets output
Lời gọi tool nguy hiểm (shell.exec rm -rf /)Firewalldeny trên tool glob + argument clause
SSRF / data exfiltration qua URL đi ra ngoàiFirewall — danh sách allow/deny egress
Prompt injection từ nội dung không đáng tinCả hai — input guardrail + firewall allow-list
Secret trong đối số toolFirewall sanitize + quy tắc secrets Guardrails
Jailbreak / bypass chính sáchGuardrailsllm_judge / keyword / regex
Prompt quá lớn hoặc chi phí tokenGuardrails — quy tắc max_chars
Chi tiêu agent mất kiểm soát (cost loop)Firewall — verdict cap_cost
MCP server chưa được phê duyệtFirewall — MCP surface deny / pending_approval
Dữ liệu nhạy cảm từ kết quả toolGuardrails — quy tắc output trên phản hồi
Phần “tại sao” chuyên sâu cho mỗi cặp nằm trên các trang đào sâu Threats.

4. Dùng cả hai — autonomy level đặt chúng cùng nhau

Guardrails và Firewall được thiết kế để kết hợp, không cạnh tranh. Một request đi qua cả hai mặt phẳng:
  1. Input guardrail chạy — văn bản prompt được sàng lọc và tùy chọn được mask.
  2. Lời gọi mô hình — prompt (có thể đã sanitize) đến mô hình thượng nguồn.
  3. Firewall — mọi lời gọi tool mà mô hình phát ra đều được đánh giá.
  4. Output guardrail chạy — văn bản phản hồi của mô hình được sàng lọc.
Cách nhanh nhất để cấu hình cả hai cùng lúc là một autonomy level — một cài đặt duy nhất nguyên tử ghi một chính sách Firewall và một chính sách Guardrails cho toàn bộ workspace, với hoàn tác một cú nhấp:
Autonomy levelTư thế FirewallTư thế Guardrails
tightDefault-deny; block destructive shell + SSRF egressPII Shield + Secrets Blocker bật
balancedDefault audit; deny destructive shellPII Shield chỉ audit (flag PII)
permissiveKhông có quy tắc thực thi; observe mode bậtKhông có thực thi
Áp dụng autonomy level từ console Firewall (POST /api/workspace/firewall/autonomy, Developer+), rồi tinh chỉnh từng mặt phẳng độc lập từ đó.

5. Tóm tắt

Guardrails sở hữu văn bản; Firewall sở hữu hành động — chạy cả hai, để autonomy level kết nối chúng, và siết chặt từng mặt phẳng độc lập một khi bạn có thể thấy traffic thực tế của agent.

Guardrails

Loại quy tắc, phát hiện PII, LLM judge, eval harness, và tham chiếu API.

Agent Firewall

Verdict, bề mặt, autonomy level, phê duyệt HITL, và tham chiếu API.