Duas formas de definir o esforço
1. O campo reasoning_effort (formato OpenAI)
Passe-o em uma requisição Chat Completions. Valores: low, medium,
high (e minimal / max em alguns modelos).
- Família OpenAI série-o e gpt-5-pro: encaminhado como
reasoning_effortnativo. - Anthropic Claude: mapeado para
thinking: {type: "enabled", budget_tokens: ...}com orçamentoslow→1280,medium→2048,high→4096. Paraclaude-opus-4.6especificamente, mapeado parathinking: {type: "adaptive"}maisoutput_config.effort. - Google Gemini: mapeado para
generationConfig.thinkingConfigcomincludeThoughts: truee um nível / orçamento de pensamento definido pelo esforço. - xAI Grok: encaminhado para a família grok-3-mini (que aceita
reasoning_effortnativamente). - DeepSeek reasoner: o modelo é reasoner-por-design;
reasoning_efforté um no-op.
2. O sufixo -{effort} no nome do modelo
Você também pode embutir o esforço no nome do modelo. Sufixos
reconhecidos: -minimal / -low / -medium / -high / -max.
Famílias de modelos de raciocínio nesta implantação
OpenAI:openai/o1,o1-proopenai/o3,o3-mini,o3-mini-highopenai/o4-mini,o4-mini-high- Família
openai/gpt-5-proegpt-5.x-pro
anthropic/claude-sonnet-4.6,claude-opus-4.6,claude-opus-4.7, etc. — combine comreasoning_effortou o sufixo-{effort}.
google/gemini-2.5-pro,gemini-2.5-flash,gemini-3-pro-preview, etc. — combine comreasoning_effortou o sufixo-{effort}.
deepseek/deepseek-reasoner— reasoner-por-design.
grok/grok-4-fast-reasoning,grok-4-1-fast-reasoninggrok/grok-3-minicombinado comreasoning_effort: lowouhigh
/v1/models para o catálogo ativo.
Rastro de raciocínio na resposta
Para a Responses API da OpenAI, o raciocínio oculto do modelo é retornado como itensreasoning no output da resposta. Para Anthropic
via /v1/messages nativo, o pensamento chega como entradas de
content_block do tipo thinking. O gateway também expõe um campo
reasoning_content em respostas de chat-completion onde o upstream
fornece um.
Você pode exibir o rastro por transparência ou ignorá-lo em produção.
Faturamento
Tokens de raciocínio são rastreados separadamente emcompletion_tokens_details.reasoning_tokens no objeto usage da
resposta — veja
Operações / Faturamento e uso.