https://api.orcarouter.ai/v1/...; chỉ các
key và chính sách trong gateway thay đổi. Cho giải phẫu tấn công bên dưới,
đọc Prompt injection và
Cuộc gọi tool nguy hiểm; trang
này là ứng phó.
Các vai trò mỗi bước cần được nêu inline. Đọc feed Matches guardrail mở
cho mọi Member; các chế độ xem Events, Runs, và trace firewall
cần Developer+; thu hồi một key, áp dụng một tư thế tự chủ, và chỉnh một
chính sách cần Developer+; đánh dấu một guardrail match là false
positive cần Admin.
1. Vòng lặp ai security incident response
Ba pha, chạy theo thứ tự. Đừng nhảy thẳng sang hardening — contain trước để kẻ tấn công mất truy cập trong khi bạn điều tra.Contain
Thu hồi key bị xâm phạm để kẻ tấn công không thể thực hiện một cuộc gọi
khác. Phát hành một bản thay thế mới, có phạm vi chặt chẽ.
Scope
Đọc các feed Events / Runs firewall và Matches guardrail để xem
chính xác key đã làm gì và cái gì đã kích hoạt.
Harden
Siết tư thế tự chủ và thêm quy tắc đáng lẽ đã bắt được nó, để cùng cuộc
tấn công không thể tái diễn.
2. Contain — thu hồi key
Động tác đầu tiên là cắt truy cập. Một keysk-orca-... bị rò rỉ vẫn hoạt
động cho đến khi bạn thu hồi nó, nên làm điều này trước bất cứ thứ gì khác.
Trong console, mở API Keys, tìm key bị xâm phạm (nó bị che khi hiển thị
— khớp nó theo tên, environment, hoặc lần-dùng-cuối), và xóa nó (vai
trò Developer). Xóa là tức thì: ngay request kế tiếp trên key đó bị từ
chối tại gateway.
Rồi phát hành một bản thay thế, có phạm vi tối thiểu workload cần — không
bao giờ là key toàn tài khoản của bạn. Trong API Keys → New key (vai trò
Developer):
Giới hạn bán kính sát thương trên key mới
Giới hạn bán kính sát thương trên key mới
Đặt
credit_limit_usd thành một mức trần hợp lý (0 = không giới hạn)
để một lần rò rỉ tương lai không thể rút cạn quota, allow_ips thành
các IP egress của backend bạn nếu người gọi chạy từ một server cố định,
và expired_time cho bất cứ thứ gì tạm thời (-1 = không bao giờ hết
hạn). Dùng model_limits (với model_limits_enabled) để rào key chỉ
còn các mô hình nó cần.Gắn các chính sách của bạn vào key mới
Gắn các chính sách của bạn vào key mới
Chọn guardrail đã gia cố của bạn từ dropdown Guardrail (đặt
guardrail_id) và chính sách firewall của bạn từ dropdown Firewall
policy (đặt firewall_policy_id). Cả hai liên kết nằm trên key trong
gateway, nên key mới được quản lý từ cuộc gọi đầu tiên của nó. Sao chép
plaintext một lần — nó bị che ở mọi nơi sau khi tạo.3. Scope — đọc các feed Events và Matches
Giờ tìm ra key thực sự đã làm gì. Gateway đã ghi lại mọi cuộc gọi tool và mọi quy tắc đã kích hoạt — theo phạm vi workspace, không cần thêm đo lường.| Feed | Ở đâu | Vai trò | Nó trả lời cái gì |
|---|---|---|---|
| Firewall → Events | theo từng cuộc gọi tool | Developer+ | Mọi lần đánh giá — verdict, surface, tool, args, lần chạy nó thuộc về. |
| Firewall → Runs | gộp lại | Developer+ | “Session agent này thực sự đã làm gì” — hỗn hợp verdict, các tool và mô hình riêng biệt. |
| Guardrails → Matches | theo từng hit quy tắc | Member | Mọi quy tắc guardrail đã kích hoạt — type, hành động, stage, chi tiết. |
deny và audit để xem cái gì đã bị
block so với cái gì đã lọt qua dưới một tư thế chỉ-observe.
Đối chiếu Guardrails → Matches cho cùng cửa sổ. Nếu một quy tắc
Prompt-Injection Basics gắn cờ request — các cụm như “ignore previous
instructions” hoặc “reveal your system prompt” — nó rơi vào đây với loại
quy tắc và stage.
Feed Matches ghi lại chuỗi con đã khớp chỉ khi Log raw content được
bật cho guardrail đó — nó tắt theo mặc định (tư thế bảo thủ về quyền
riêng tư). Với nó tắt bạn vẫn thấy rằng một quy tắc đã kích hoạt và
meta-string chi tiết của nó, chỉ không phải văn bản nguyên văn. Bật nó theo
từng guardrail khi bạn cần chuỗi con cho triage; cài đặt là không hồi tố.
POST /api/guardrail/match/:id/mark-fp, Admin) để nó ngừng làm lệch
tín hiệu của bạn trong khi bạn tinh chỉnh.
4. Harden — đóng khoảng trống
Containment dừng kẻ tấn công này; hardening dừng kẻ tiếp theo. Hai động tác: siết tư thế workspace ngay lập tức, rồi thêm quy tắc cụ thể đáng lẽ đã bắt được cái bạn vừa thấy.Con đường nhanh — nâng cấp độ tự chủ
Nếu sự cố phơi bày một agent đang chạy quá mở, lật cả tư thế workspace trong một transaction. Trong Firewall → Posture, áp dụng cấp độ tự chủtight autonomy level
(vai trò Developer). Trong một động tác điều này đặt default-deny, deny
shell phá hủy, deny các tên tool SSRF dạng fetch, và thực thi các guardrail
PII Shield và Secrets & API-Key Blocker. Mọi thay đổi là một
transaction với hoàn tác một cú nhấp từ snapshot audit, nên bạn có thể
roll thẳng lại nếu nó quá nghiêm ngặt.
Con đường chính xác — thêm quy tắc đáng lẽ đã bắt được nó
Cho prompt-injection cụ thể, OrcaRouter cung cấp một preset Prompt-Injection Basics (danh mục safety) — một quy tắc từ khóa flag các cụm injection phổ biến để xem xét mà không block người dùng. Bắt đầu ở đó để có tín hiệu, rồi leo thang. Người anh em chặt hơn của nó, Jailbreak / Role-Play Blocker, block cùng lớp với một regex. Trong Guardrails → New guardrail (vai trò Developer; sandbox Test chạy các quy tắc ứng viên inline —llm_judge thực hiện một cuộc
gọi mô hình trả phí — nên nó cũng là Developer+), áp dụng preset
Prompt-Injection Basics, rồi thêm một quy tắc llm_judge để bắt các
injection bị che giấu mà một danh sách từ khóa bỏ lỡ:
judge_fail_open: false
để coi một lỗi hoặc timeout judge như một block khi một kiểm tra bị bỏ lỡ là
không thể chấp nhận. Chứng minh cả chính sách trong tab Test và đối với
một corpus Eval trước khi gắn nó vào một key.
Triển khai quy tắc mới một cách an toàn
Đừng thực thi một quy tắc mới mù trên traffic trực tiếp. Cho firewall, đặtshadow_mode: true trên chính sách — mọi verdict thực thi bị hạ cấp thành
audit và ghi log như [shadow] would …, nên bạn theo dõi nó kích hoạt
trên feed Events trước khi nó thay đổi bất kỳ traffic nào. Cho
guardrail, đặt hành động của một quy tắc mới thành flag trước, theo dõi
feed Matches, rồi thăng cấp nó lên block hoặc mask. Xem
chế độ thực thi cho con đường
observe → shadow → enforce đầy đủ.
5. Kiểm chứng bản sửa
Xác nhận vòng lặp được đóng trước khi bạn gọi nó là đã giải quyết.Phát lại cuộc tấn công trong sandbox
Dán prompt độc hại vào tab Test guardrail ở stage
input và xác
nhận verdict giờ là một block (hoặc flag). Cho một sự cố cuộc-gọi-tool,
dry-run cuộc gọi phạm tội trong Firewall → Test (Developer+) và xác
nhận verdict là deny. Cả hai sandbox đều không gửi gì lên thượng nguồn
hoặc persist gì.Xác nhận key cũ đã chết
Gửi một request trên key đã thu hồi và xác nhận nó bị từ chối. Một
guardrail bị block trả về HTTP 400
guardrail_blocked; một cuộc gọi
tool bị deny trả về HTTP 400 firewall_blocked — và một block tốn
no quota (các block stage input kích hoạt trước khi đo lường; các
block output hoàn lại quota đã tiêu trước) và được đánh dấu skip-retry.Chụp snapshot dòng thời gian
Mọi thay đổi guardrail ghi một hàng version-history mà bạn có thể
diff và revert. Các thay đổi firewall được chụp trong audit
trail, và một lần áp dụng cấp-độ-tự-chủ mang một snapshot hoàn tác một
cú nhấp. Cùng với audit log workspace, đó là bản ghi sự cố của bạn — ai
đã thay đổi cái gì, khi nào, và tư thế là gì trước và sau.
6. Runbook tổng quan
| Pha | Hành động | Ở đâu | Vai trò |
|---|---|---|---|
| Contain | Xóa key bị rò rỉ | API Keys | Developer+ |
| Contain | Phát hành một bản thay thế có phạm vi giới hạn | API Keys → New key | Developer+ |
| Scope | Đọc cuộc gọi tool + verdict | Firewall → Events / Runs | Developer+ |
| Scope | Đọc các quy tắc đã kích hoạt | Guardrails → Matches | Member |
| Harden | Nâng tư thế | Firewall → Posture (tight) | Developer+ |
| Harden | Thêm quy tắc bắt được | Guardrails / Firewall | Developer+ |
| Verify | Phát lại trong sandbox | Tab Test | Developer+ |
7. Đi tiếp ở đâu
Checklist go-live
Lượt gia cố tiền-production — thu hẹp phạm vi key và khóa tư thế trước
khi bạn ship.
Prompt injection
Cuộc tấn công mà runbook này ứng phó, từ đầu đến cuối.
Chế độ thực thi
Observe → shadow → enforce — triển khai một quy tắc mới mà không làm
hỏng traffic.
Dừng exfiltration
Khóa các đích đến đi ra ngoài nếu sự cố chạm tới mạng.
