跳轉到主要內容
推理模型在生成最終回答前,會花額外算力跑一遍隱藏的”思考”過程。 它們更慢、更貴,但能解決更難的問題。OrcaRouter 給出統一的語法 來控制各服務商的推理 effort——挑選適合你客戶端的形式即可。

設置 effort 的兩種方式

1. reasoning_effort 字段(OpenAI 形態)

在 Chat Completions 請求上傳入。可選值:lowmediumhigh (某些模型還支持 minimal / max)。
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter 會把這一字段翻譯到上游的原生形態:
  • OpenAI o 系列與 gpt-5-pro 系列:原樣轉發為 reasoning_effort
  • Anthropic Claude:映射為 thinking: {type: "enabled", budget_tokens: ...},對應預算 low→1280、medium→2048、high→4096。claude-opus-4.6 特殊: 映射為 thinking: {type: "adaptive"} + output_config.effort
  • Google Gemini:映射為 generationConfig.thinkingConfig, 設置 includeThoughts: true 以及與 effort 對應的 thinking 等級 / 預算。
  • xAI Grok:在 grok-3-mini 系列上原樣轉發(它原生接受 reasoning_effort)。
  • DeepSeek reasoner:本身就是推理模型;reasoning_effort 不起作用。

2. 模型名后綴 -{effort}

也可以把 effort 直接編進模型名。識別的后綴: -minimal / -low / -medium / -high / -max
# 等價于 model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
跨服務商行為一致——挑代碼里更可讀的那種寫法即可。

本部署中的推理模型家族

OpenAI:
  • openai/o1o1-pro
  • openai/o3o3-minio3-mini-high
  • openai/o4-minio4-mini-high
  • openai/gpt-5-pro 以及 gpt-5.x-pro 系列
Anthropic(Claude 4 / Opus 上的 extended thinking):
  • anthropic/claude-sonnet-4.6claude-opus-4.6claude-opus-4.7 等——配合 reasoning_effort-{effort} 后綴使用。
Google Gemini(Gemini 2.5 / 3.x 上的 extended thinking):
  • google/gemini-2.5-progemini-2.5-flashgemini-3-pro-preview 等——配合 reasoning_effort-{effort} 后綴使用。
DeepSeek:
  • deepseek/deepseek-reasoner —— 本身就是推理模型。
xAI Grok:
  • grok/grok-4-fast-reasoninggrok-4-1-fast-reasoning
  • grok/grok-3-mini 配合 reasoning_effort: lowhigh
調用 /v1/models 獲取實時目錄。

響應中的推理軌跡

對于 OpenAI Responses API,模型的隱藏推理以 reasoning 項的形式 出現在響應輸出里。對于通過原生 /v1/messages 調用的 Anthropic, thinking 以 type: thinkingcontent_block 條目到達。網關也會 在上游提供 reasoning_content 時把它透出到 chat-completion 響應上。 你可以為透明性展示這些軌跡,或在生產環境中忽略它們。

計費

推理 token 在 usage 對象的 completion_tokens_details.reasoning_tokens 上單獨計數——參閱 運維 / 計費與用量