設置 effort 的兩種方式
1. reasoning_effort 字段(OpenAI 形態)
在 Chat Completions 請求上傳入。可選值:low、medium、high
(某些模型還支持 minimal / max)。
- OpenAI o 系列與 gpt-5-pro 系列:原樣轉發為
reasoning_effort。 - Anthropic Claude:映射為
thinking: {type: "enabled", budget_tokens: ...},對應預算low→1280、medium→2048、high→4096。claude-opus-4.6特殊: 映射為thinking: {type: "adaptive"}+output_config.effort。 - Google Gemini:映射為
generationConfig.thinkingConfig, 設置includeThoughts: true以及與 effort 對應的 thinking 等級 / 預算。 - xAI Grok:在 grok-3-mini 系列上原樣轉發(它原生接受
reasoning_effort)。 - DeepSeek reasoner:本身就是推理模型;
reasoning_effort不起作用。
2. 模型名后綴 -{effort}
也可以把 effort 直接編進模型名。識別的后綴:
-minimal / -low / -medium / -high / -max。
本部署中的推理模型家族
OpenAI:openai/o1、o1-proopenai/o3、o3-mini、o3-mini-highopenai/o4-mini、o4-mini-highopenai/gpt-5-pro以及gpt-5.x-pro系列
anthropic/claude-sonnet-4.6、claude-opus-4.6、claude-opus-4.7等——配合reasoning_effort或-{effort}后綴使用。
google/gemini-2.5-pro、gemini-2.5-flash、gemini-3-pro-preview等——配合reasoning_effort或-{effort}后綴使用。
deepseek/deepseek-reasoner—— 本身就是推理模型。
grok/grok-4-fast-reasoning、grok-4-1-fast-reasoninggrok/grok-3-mini配合reasoning_effort: low或high
/v1/models 獲取實時目錄。
響應中的推理軌跡
對于 OpenAI Responses API,模型的隱藏推理以reasoning 項的形式
出現在響應輸出里。對于通過原生 /v1/messages 調用的 Anthropic,
thinking 以 type: thinking 的 content_block 條目到達。網關也會
在上游提供 reasoning_content 時把它透出到 chat-completion 響應上。
你可以為透明性展示這些軌跡,或在生產環境中忽略它們。
計費
推理 token 在 usage 對象的completion_tokens_details.reasoning_tokens
上單獨計數——參閱
運維 / 計費與用量。