Deux façons de définir l’effort
1. Le champ reasoning_effort (forme OpenAI)
Passez-le sur une requête Chat Completions. Valeurs : low,
medium, high (et minimal / max sur certains modèles).
- Série o et famille gpt-5-pro d’OpenAI : transmis comme
reasoning_effortnatif. - Anthropic Claude : mappé à
thinking: {type: "enabled", budget_tokens: ...}avec budgetslow→1280,medium→2048,high→4096. Pourclaude-opus-4.6spécifiquement, mappé àthinking: {type: "adaptive"}plusoutput_config.effort. - Google Gemini : mappé à
generationConfig.thinkingConfigavecincludeThoughts: trueet un niveau / budget de thinking défini à partir de l’effort. - xAI Grok : transmis pour la famille grok-3-mini (qui accepte
reasoning_effortnativement). - DeepSeek reasoner : le modèle est raisonneur par conception ;
reasoning_effortest un no-op.
2. Le suffixe de nom de modèle -{effort}
Vous pouvez aussi incorporer l’effort dans le nom du modèle. Suffixes
reconnus : -minimal / -low / -medium / -high / -max.
Familles de modèles de raisonnement dans ce déploiement
OpenAI :openai/o1,o1-proopenai/o3,o3-mini,o3-mini-highopenai/o4-mini,o4-mini-highopenai/gpt-5-proet famillegpt-5.x-pro
anthropic/claude-sonnet-4.6,claude-opus-4.6,claude-opus-4.7, etc. — associez avecreasoning_effortou le suffixe-{effort}.
google/gemini-2.5-pro,gemini-2.5-flash,gemini-3-pro-preview, etc. — associez avecreasoning_effortou le suffixe-{effort}.
deepseek/deepseek-reasoner— raisonneur par conception.
grok/grok-4-fast-reasoning,grok-4-1-fast-reasoninggrok/grok-3-miniassocié avecreasoning_effort: lowouhigh
/v1/models pour le catalogue en direct.
Trace de raisonnement dans la réponse
Pour l’API Responses d’OpenAI, le raisonnement caché du modèle est retourné comme élémentsreasoning dans la sortie de réponse. Pour
Anthropic via /v1/messages natif, le thinking arrive comme
entrées content_block de type thinking. La passerelle expose
aussi un champ reasoning_content sur les réponses chat-completion
quand l’amont en fournit un.
Vous pouvez afficher la trace pour la transparence ou l’ignorer en
production.
Facturation
Les tokens de raisonnement sont suivis séparément surcompletion_tokens_details.reasoning_tokens dans l’objet usage de
réponse — voir
Opérations / Facturation et utilisation.