Guardrails vs. Agent Firewall — khi nào dùng cái nào

Câu trả lời ngắn gọn: Guardrails quản lý văn bản; Firewall quản lý hành động. Chúng bổ trợ nhau — một request chảy qua cả hai — và cách nhanh nhất để cấu hình chúng cùng nhau là một autonomy level. Phần còn lại của trang này dành cho các trường hợp bạn cần biết lớp nào sở hữu một mối đe dọa cụ thể.

Vai trò cần thiết. Mọi thành viên workspace có thể đọc chính sách và feed Matches của guardrail; feed Events của firewall yêu cầu vai trò Developer. Tạo hoặc chỉnh sửa guardrail hoặc chính sách firewall cũng yêu cầu Developer hoặc cao hơn.

1. Phân biệt một dòng

Lớp	Quản lý	Thấy
Guardrails	Văn bản — những gì mô hình đọc và viết	Nội dung prompt, nội dung phản hồi
Agent Firewall	Hành động — những gì agent làm	Lời gọi tool, MCP dispatch, đích đến mạng đi ra ngoài

Guardrails kích hoạt trước lời gọi thượng nguồn (trên prompt) và sau nó (trên phản hồi). Firewall kích hoạt trên mọi lời gọi tool mà mô hình phát ra hoặc mà agent phát ra — bất kể mô hình hoặc provider nào phục vụ lượt đó.

2. So sánh song song

Chiều	Guardrails	Agent Firewall
Quản lý	Văn bản prompt và văn bản phản hồi mô hình	Lời gọi tool, MCP dispatch, đích đến egress, chi phí agent
Thấy	Message người dùng, system prompt, và phản hồi của mô hình	Tên tool, đối số cuộc gọi, lời gọi tool mô hình phát ra, host/IP đi ra ngoài
Gắn qua	`guardrail_id` trên API key	`firewall_policy_id` trên API key
Loại quy tắc	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Tool-name glob + argument clause + egress scope + skill ownership
Ví dụ mối đe dọa	PII trong prompt, API secret trong phản hồi, jailbreak, output lạc đề, ngữ cảnh quá lớn	Lời gọi tool nguy hiểm, SSRF, data exfiltration, vòng lặp chi phí agent mất kiểm soát, MCP server chưa được phê duyệt
Verdict / hành động	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Khi nào kích hoạt	Giai đoạn input: trước lời gọi mô hình; giai đoạn output: sau khi mô hình phản hồi	Trên mọi lời gọi tool mô hình phát ra hoặc agent phát ra
Shadow / observe mode	Không — guardrail kích hoạt hoặc không	Có — shadow mode hạ cấp verdict thực thi thành `audit` để triển khai an toàn

3. Mối đe dọa → lớp nào

Dùng bảng này để định tuyến yêu cầu bảo mật mới đến đúng kiểm soát:

Mối đe dọa	Chọn
PII trong message người dùng	Guardrails — quy tắc `pii` input (`mask` / `block`)
Secret trong phản hồi của mô hình	Guardrails — quy tắc secrets output
Lời gọi tool nguy hiểm (`shell.exec rm -rf /`)	Firewall — `deny` trên tool glob + argument clause
SSRF / data exfiltration qua URL đi ra ngoài	Firewall — danh sách allow/deny egress
Prompt injection từ nội dung không đáng tin	Cả hai — input guardrail + firewall allow-list
Secret trong đối số tool	Firewall `sanitize` + quy tắc secrets Guardrails
Jailbreak / bypass chính sách	Guardrails — `llm_judge` / keyword / regex
Prompt quá lớn hoặc chi phí token	Guardrails — quy tắc `max_chars`
Chi tiêu agent mất kiểm soát (cost loop)	Firewall — verdict `cap_cost`
MCP server chưa được phê duyệt	Firewall — MCP surface deny / `pending_approval`
Dữ liệu nhạy cảm từ kết quả tool	Guardrails — quy tắc output trên phản hồi

Phần “tại sao” chuyên sâu cho mỗi cặp nằm trên các trang đào sâu Threats.

4. Dùng cả hai — autonomy level đặt chúng cùng nhau

Guardrails và Firewall được thiết kế để kết hợp, không cạnh tranh. Một request đi qua cả hai mặt phẳng:

Input guardrail chạy — văn bản prompt được sàng lọc và tùy chọn được mask.
Lời gọi mô hình — prompt (có thể đã sanitize) đến mô hình thượng nguồn.
Firewall — mọi lời gọi tool mà mô hình phát ra đều được đánh giá.
Output guardrail chạy — văn bản phản hồi của mô hình được sàng lọc.

Cách nhanh nhất để cấu hình cả hai cùng lúc là một autonomy level — một cài đặt duy nhất nguyên tử ghi một chính sách Firewall và một chính sách Guardrails cho toàn bộ workspace, với hoàn tác một cú nhấp:

Autonomy level	Tư thế Firewall	Tư thế Guardrails
`tight`	Default-deny; block destructive shell + SSRF egress	PII Shield + Secrets Blocker bật
`balanced`	Default audit; deny destructive shell	PII Shield chỉ audit (flag PII)
`permissive`	Không có quy tắc thực thi; observe mode bật	Không có thực thi

Áp dụng autonomy level từ console Firewall (POST /api/workspace/firewall/autonomy, Developer+), rồi tinh chỉnh từng mặt phẳng độc lập từ đó.

5. Tóm tắt

Guardrails sở hữu văn bản; Firewall sở hữu hành động — chạy cả hai, để autonomy level kết nối chúng, và siết chặt từng mặt phẳng độc lập một khi bạn có thể thấy traffic thực tế của agent.

Guardrails

Loại quy tắc, phát hiện PII, LLM judge, eval harness, và tham chiếu API.

Agent Firewall

Verdict, bề mặt, autonomy level, phê duyệt HITL, và tham chiếu API.

Enforcement modes Phạm vi & key

​1. Phân biệt một dòng

​2. So sánh song song

​3. Mối đe dọa → lớp nào

​4. Dùng cả hai — autonomy level đặt chúng cùng nhau

​5. Tóm tắt

Guardrails

Agent Firewall

1. Phân biệt một dòng

2. So sánh song song

3. Mối đe dọa → lớp nào

4. Dùng cả hai — autonomy level đặt chúng cùng nhau

5. Tóm tắt