设置 effort 的两种方式
1. reasoning_effort 字段(OpenAI 形态)
在 Chat Completions 请求上传入。可选值:low、medium、high
(某些模型还支持 minimal / max)。
- OpenAI o 系列与 gpt-5-pro 系列:原样转发为
reasoning_effort。 - Anthropic Claude:映射为
thinking: {type: "enabled", budget_tokens: ...},对应预算low→1280、medium→2048、high→4096。claude-opus-4.6特殊: 映射为thinking: {type: "adaptive"}+output_config.effort。 - Google Gemini:映射为
generationConfig.thinkingConfig, 设置includeThoughts: true以及与 effort 对应的 thinking 等级 / 预算。 - xAI Grok:在 grok-3-mini 系列上原样转发(它原生接受
reasoning_effort)。 - DeepSeek reasoner:本身就是推理模型;
reasoning_effort不起作用。
2. 模型名后缀 -{effort}
也可以把 effort 直接编进模型名。识别的后缀:
-minimal / -low / -medium / -high / -max。
本部署中的推理模型家族
OpenAI:openai/o1、o1-proopenai/o3、o3-mini、o3-mini-highopenai/o4-mini、o4-mini-highopenai/gpt-5-pro以及gpt-5.x-pro系列
anthropic/claude-sonnet-4.6、claude-opus-4.6、claude-opus-4.7等——配合reasoning_effort或-{effort}后缀使用。
google/gemini-2.5-pro、gemini-2.5-flash、gemini-3-pro-preview等——配合reasoning_effort或-{effort}后缀使用。
deepseek/deepseek-reasoner—— 本身就是推理模型。
grok/grok-4-fast-reasoning、grok-4-1-fast-reasoninggrok/grok-3-mini配合reasoning_effort: low或high
/v1/models 获取实时目录。
响应中的推理轨迹
对于 OpenAI Responses API,模型的隐藏推理以reasoning 项的形式
出现在响应输出里。对于通过原生 /v1/messages 调用的 Anthropic,
thinking 以 type: thinking 的 content_block 条目到达。网关也会
在上游提供 reasoning_content 时把它透出到 chat-completion 响应上。
你可以为透明性展示这些轨迹,或在生产环境中忽略它们。
计费
推理 token 在 usage 对象的completion_tokens_details.reasoning_tokens
上单独计数——参阅
运维 / 计费与用量。