Bảo mật AI agent với OrcaRouter

Một AI agent không phải là chatbot. Nó đọc các trang web không đáng tin cậy, gọi tool, tiêu tiền, kết nối với các host nội bộ, và nạp các khả năng mà nó tìm thấy lúc runtime. Mỗi hành động đó đều có hậu quả ngoài đời thực, và hầu hết chúng xảy ra mà không có con người giám sát. OrcaRouter nằm trên đường đi giữa agent của bạn và mọi mô hình mà nó gọi, nên đây là nơi duy nhất thấy mọi request và phản hồi — và mọi lời gọi tool và đích đến đi ra ngoài mà agent của bạn định tuyến qua nó — bất kể provider nào phục vụ. Điểm nghẽn đó là nơi thực thi zero-trust thuộc về. Bạn cấu hình một lần trong workspace của mình; agent vẫn gọi https://api.orcarouter.ai/v1 như trước.

1. Mối đe dọa: agent hành động, không chỉ trò chuyện

Tính năng an toàn cấp độ prompt được xây dựng cho chat. Nó giả định mô hình tạo ra văn bản và một con người đọc nó. Các agent phá vỡ giả định đó:

Chúng tiếp nhận nội dung không đáng tin cậy — một trang web, một tài liệu được truy xuất, một kết quả tool — có thể mang theo các hướng dẫn (prompt injection).
Chúng gọi tool — shell.exec, db.query, một payment API — thực hiện những việc không thể đảo ngược.
Chúng kết nối mạng — fetch URL mà kẻ tấn công có thể hướng đến các dịch vụ nội bộ hoặc endpoint exfiltration.
Chúng tự mở rộng — cài đặt skill, plugin, và MCP server mà bạn chưa từng xem xét.

Không có điều nào trong số đó hiển thị với content filter chỉ đọc prompt. Bảo mật agent có nghĩa là kiểm soát danh tính, nội dung, hành động, và mạng, đồng thời giữ một audit trail của tất cả.

2. Control stack

OrcaRouter áp dụng bốn lớp cho mọi request. Mỗi lớp độc lập, theo phạm vi workspace, và gắn vào một API key mà không cần thay đổi code.

Scoped keys

Danh tính tối thiểu quyền. Ràng buộc với các mô hình cụ thể, IP, giới hạn chi tiêu, hết hạn, và guardrail + chính sách firewall áp dụng chính xác.

Guardrails

Kiểm soát nội dung. Sàng lọc prompt và phản hồi — block, mask, hoặc flag PII, secret, injection, và output không an toàn.

Agent Firewall

Kiểm soát hành động. Allow-list tool, kiểm tra và sanitize đối số lời gọi tool, giữ lại chờ phê duyệt, và giới hạn egress và chi phí.

Audit

Quy gán. Mọi match, verdict, và phê duyệt đều được ghi log và tương quan với lần chạy agent gây ra nó.

Một request chảy qua chúng theo thứ tự: key quyết định liệu cuộc gọi có được phép hay không và các chính sách nào ràng buộc; guardrails sàng lọc văn bản input; mô hình chạy; firewall phán xét mọi lời gọi tool và đích đến đi ra ngoài; guardrails sàng lọc output; và mọi quyết định đều vào audit trail. Xem Control stack để biết đường đầy đủ.

3. Tại sao “zero trust”

Zero trust có nghĩa là không request nào được tin tưởng chỉ vì nơi nó đến. Một lời gọi tool được phán xét dựa trên nó là gì, không dựa vào việc chính agent của bạn phát ra nó — vì agent có thể đang hành động theo các hướng dẫn bị tiêm nhiễm mà nó đọc từ một trang không đáng tin. OrcaRouter thực thi điều này bằng cách default-deny trên các hành động quan trọng và allow-list tường minh cho những hành động bạn có chủ định. Tại sao AI agent cần zero trust đề cập mô hình này chuyên sâu.

4. Tất cả nằm trong gateway

Control stack được cấu hình trong workspace của bạn và thực thi tại gateway, không phải trong ứng dụng của bạn:

Gắn một lần, áp dụng ở mọi nơi. Ràng buộc một guardrail và một chính sách firewall với một API key; mọi cuộc gọi mà key đó thực hiện đều được sàng lọc. Chỉnh sửa chính sách và mọi key được gắn sẽ thay đổi ở request tiếp theo.
Không triển khai lại, không đổi SDK. Agent của bạn vẫn phát ra các cuộc gọi OpenAI-shaped như cũ. Việc thực thi vô hình cho đến khi một quy tắc kích hoạt.
Không phụ thuộc provider. Chính sách tương tự chạy trên GPT, Claude, Gemini, và các mô hình khác — nó sàng lọc văn bản và hành động, không phải lựa chọn mô hình.

Cấu hình được kiểm soát bằng vai trò trong workspace. Đọc chính sách và cài đặt mở cho mọi thành viên; feed Events và Runs của firewall yêu cầu vai trò Developer; tạo hoặc thay đổi guardrails, chính sách firewall, và key yêu cầu Developer; thay đổi compliance và gateway-key yêu cầu Admin. Trong toàn bộ tài liệu này, mỗi bước cấu hình đều ghi chú vai trò cần thiết.

5. Con đường nhanh: một công tắc

Bạn không cần phải soạn quy tắc để được bảo vệ. Một autonomy level đặt toàn bộ tư thế Firewall và Guardrails của bạn trong một bước, với hoàn tác một cú nhấp:

Cấp độ	Những gì bạn nhận được
`tight`	Default-deny; chặn tool phá hủy và egress SSRF; guardrail PII + secrets bật.
`balanced`	Audit mặc định, deny destructive shell, flag PII. Tư thế khởi đầu được khuyến nghị.
`permissive`	Không có gì được thực thi, nhưng mọi thứ đều được quan sát để bạn vẫn thấy hành vi agent.

Đây là Secure Agents baseline — bắt đầu ở đó, xem những gì agent của bạn thực sự làm, rồi siết chặt.

6. Tiếp theo

Quickstart

Bật zero trust trong 5 phút.

Tại sao zero trust

Mô hình đe dọa đằng sau thiết kế.

Guardrails vs. Firewall

Lớp nào bắt mối đe dọa nào.

Trách nhiệm của bạn

Những gì gateway bảo mật, và những gì thuộc về bạn.

Tại sao zero trust

​1. Mối đe dọa: agent hành động, không chỉ trò chuyện

​2. Control stack

Scoped keys

Guardrails

Agent Firewall

Audit

​3. Tại sao “zero trust”

​4. Tất cả nằm trong gateway

​5. Con đường nhanh: một công tắc

​6. Tiếp theo

Quickstart

Tại sao zero trust

Guardrails vs. Firewall

Trách nhiệm của bạn

1. Mối đe dọa: agent hành động, không chỉ trò chuyện

2. Control stack

3. Tại sao “zero trust”

4. Tất cả nằm trong gateway

5. Con đường nhanh: một công tắc

6. Tiếp theo