Suy luận - OrcaRouter

Các mô hình suy luận tiêu tốn thêm tính toán cho một lượt “suy nghĩ” ẩn trước khi đưa ra câu trả lời cuối cùng. Chúng chậm hơn và đắt hơn nhưng giải quyết được các bài toán khó hơn. OrcaRouter cung cấp một cú pháp thống nhất để kiểm soát nỗ lực suy luận trên mọi nhà cung cấp — chọn dạng nào phù hợp với client của bạn.

Hai cách để đặt effort

1. Trường `reasoning_effort` (định dạng OpenAI)

Truyền nó trong yêu cầu Chat Completions. Các giá trị: low, medium, high (và minimal / max trên một số mô hình).

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

OrcaRouter dịch trường này sang định dạng bản địa của upstream:

OpenAI dòng o và họ gpt-5-pro: chuyển tiếp dưới dạng reasoning_effort bản địa.
Anthropic Claude: ánh xạ thành thinking: {type: "enabled", budget_tokens: ...} với ngân sách low→1280, medium→2048, high→4096. Riêng với claude-opus-4.6, ánh xạ thành thinking: {type: "adaptive"} cộng output_config.effort.
Google Gemini: ánh xạ thành generationConfig.thinkingConfig với includeThoughts: true và mức/ngân sách thinking đặt từ effort.
xAI Grok: chuyển tiếp cho họ grok-3-mini (vốn chấp nhận reasoning_effort bản địa).
DeepSeek reasoner: mô hình đã là reasoner theo thiết kế; reasoning_effort không có tác dụng.

2. Hậu tố `-{effort}` trong tên mô hình

Bạn cũng có thể đặt effort vào tên mô hình. Các hậu tố được nhận diện: -minimal / -low / -medium / -high / -max.

# Tương đương model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

Hoạt động tương tự giữa các nhà cung cấp — chọn dạng nào dễ đọc hơn trong mã của bạn.

Các họ mô hình suy luận trong triển khai này

OpenAI:

openai/o1, o1-pro
openai/o3, o3-mini, o3-mini-high
openai/o4-mini, o4-mini-high
openai/gpt-5-pro và họ gpt-5.x-pro

Anthropic (extended thinking trên Claude 4 / Opus):

anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, v.v. — kết hợp với reasoning_effort hoặc hậu tố -{effort}.

Google Gemini (extended thinking trên Gemini 2.5 / 3.x):

google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, v.v. — kết hợp với reasoning_effort hoặc hậu tố -{effort}.

DeepSeek:

deepseek/deepseek-reasoner — reasoner theo thiết kế.

xAI Grok:

grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
grok/grok-3-mini kết hợp với reasoning_effort: low hoặc high

Gọi /v1/models để lấy danh mục trực tiếp.

Vết suy luận trong phản hồi

Với OpenAI Responses API, phần suy luận ẩn của mô hình được trả về dưới dạng các mục reasoning trong output. Với Anthropic qua /v1/messages bản địa, suy nghĩ đến dưới dạng các mục content_block loại thinking. Gateway cũng đưa ra trường reasoning_content trên phản hồi chat-completion nơi upstream cung cấp. Bạn có thể hiển thị vết để minh bạch hoặc bỏ qua trong môi trường production.

Tính phí

Token suy luận được theo dõi riêng tại completion_tokens_details.reasoning_tokens trong đối tượng usage của phản hồi — xem Vận hành / Thanh toán và sử dụng.

​Hai cách để đặt effort

​1. Trường reasoning_effort (định dạng OpenAI)

​2. Hậu tố -{effort} trong tên mô hình

​Các họ mô hình suy luận trong triển khai này

​Vết suy luận trong phản hồi

​Tính phí