stream: true để nhận các token tăng dần dưới dạng Server-Sent
Events thay vì một phản hồi cuối duy nhất. Độ trễ đến token đầu tiên
giảm xuống chỉ còn một vòng quay mạng.
Tương thích OpenAI (Chat / Responses)
data: {...}. Luồng kết thúc bằng data: [DONE].
Để lấy đối tượng usage cuối trong luồng, truyền
stream_options: { include_usage: true } — phần ngay trước [DONE]
sẽ bao gồm số lượng token.
Anthropic Messages
Anthropic dùng sự kiện SSE có tên. Trên bề mặt Anthropic hạng nhất của OrcaRouter, toàn bộ tập sự kiện Anthropic phát ra đều đi qua trực tiếp:data: {...}.
Lỗi trong khi streaming
Các lỗi phát ra giữa luồng không thể dùng mã trạng thái HTTP (trạng thái đã được gửi khi luồng mở). Xem Vận hành / Lỗi để biết các định dạng lỗi trong luồng.Streaming và dự phòng
Một khi đã gửi bất kỳ byte phản hồi nào tới client, OrcaRouter không còn có thể dự phòng sang mục tiếp theo trong chuỗi — xem lưu ý về streaming trong Dự phòng mô hình.Bước tiếp theo
Gọi công cụ
Stream các delta của tool-call ngay khi đến.
Lỗi
Xử lý sự cố giữa luồng.
