Dos formas de establecer el esfuerzo
1. El campo reasoning_effort (forma OpenAI)
Pásalo en una solicitud Chat Completions. Valores: low, medium,
high (y minimal / max en algunos modelos).
- Serie o de OpenAI y familia gpt-5-pro: reenviado como
reasoning_effortnativo. - Anthropic Claude: mapeado a
thinking: {type: "enabled", budget_tokens: ...}con presupuestoslow→1280,medium→2048,high→4096. Paraclaude-opus-4.6específicamente, mapeado athinking: {type: "adaptive"}másoutput_config.effort. - Google Gemini: mapeado a
generationConfig.thinkingConfigconincludeThoughts: truey un nivel / presupuesto de pensamiento establecido desde el esfuerzo. - xAI Grok: reenviado para la familia grok-3-mini (que acepta
reasoning_effortnativamente). - DeepSeek reasoner: el modelo es razonador por diseño;
reasoning_effortes un no-op.
2. El sufijo de nombre de modelo -{effort}
También puedes incrustar el esfuerzo en el nombre del modelo.
Sufijos reconocidos: -minimal / -low / -medium / -high /
-max.
Familias de modelos de razonamiento en este despliegue
OpenAI:openai/o1,o1-proopenai/o3,o3-mini,o3-mini-highopenai/o4-mini,o4-mini-highopenai/gpt-5-proy familiagpt-5.x-pro
anthropic/claude-sonnet-4.6,claude-opus-4.6,claude-opus-4.7, etc. — combina conreasoning_efforto el sufijo-{effort}.
google/gemini-2.5-pro,gemini-2.5-flash,gemini-3-pro-preview, etc. — combina conreasoning_efforto el sufijo-{effort}.
deepseek/deepseek-reasoner— razonador por diseño.
grok/grok-4-fast-reasoning,grok-4-1-fast-reasoninggrok/grok-3-minicombinado conreasoning_effort: lowohigh
/v1/models para el catálogo en vivo.
Rastro de razonamiento en la respuesta
Para la API Responses de OpenAI, el razonamiento oculto del modelo se devuelve como elementosreasoning en la salida de la respuesta.
Para Anthropic vía /v1/messages nativo, el pensamiento llega como
entradas content_block de tipo thinking. La pasarela también
expone un campo reasoning_content en las respuestas chat-completion
donde el upstream proporciona uno.
Puedes mostrar el rastro por transparencia o ignorarlo en producción.
Facturación
Los tokens de razonamiento se rastrean por separado encompletion_tokens_details.reasoning_tokens en el objeto usage de la
respuesta — consulta
Operaciones / Facturación y uso.