Passer au contenu principal
Les modèles de raisonnement passent des calculs supplémentaires sur un passage caché de “réflexion” avant de produire la réponse finale. Ils sont plus lents et plus chers mais résolvent des problèmes plus difficiles. OrcaRouter fournit une syntaxe unifiée pour contrôler l’effort de raisonnement chez chaque fournisseur — choisissez celle qui convient à votre client.

Deux façons de définir l’effort

1. Le champ reasoning_effort (forme OpenAI)

Passez-le sur une requête Chat Completions. Valeurs : low, medium, high (et minimal / max sur certains modèles).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter traduit ce champ vers la forme native de l’amont :
  • Série o et famille gpt-5-pro d’OpenAI : transmis comme reasoning_effort natif.
  • Anthropic Claude : mappé à thinking: {type: "enabled", budget_tokens: ...} avec budgets low→1280, medium→2048, high→4096. Pour claude-opus-4.6 spécifiquement, mappé à thinking: {type: "adaptive"} plus output_config.effort.
  • Google Gemini : mappé à generationConfig.thinkingConfig avec includeThoughts: true et un niveau / budget de thinking défini à partir de l’effort.
  • xAI Grok : transmis pour la famille grok-3-mini (qui accepte reasoning_effort nativement).
  • DeepSeek reasoner : le modèle est raisonneur par conception ; reasoning_effort est un no-op.

2. Le suffixe de nom de modèle -{effort}

Vous pouvez aussi incorporer l’effort dans le nom du modèle. Suffixes reconnus : -minimal / -low / -medium / -high / -max.
# Équivalent à model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
Fonctionne de la même façon entre fournisseurs — choisissez la ligne la plus lisible dans votre code.

Familles de modèles de raisonnement dans ce déploiement

OpenAI :
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • openai/gpt-5-pro et famille gpt-5.x-pro
Anthropic (thinking étendu sur Claude 4 / Opus) :
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, etc. — associez avec reasoning_effort ou le suffixe -{effort}.
Google Gemini (thinking étendu sur Gemini 2.5 / 3.x) :
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, etc. — associez avec reasoning_effort ou le suffixe -{effort}.
DeepSeek :
  • deepseek/deepseek-reasoner — raisonneur par conception.
xAI Grok :
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-mini associé avec reasoning_effort: low ou high
Appelez /v1/models pour le catalogue en direct.

Trace de raisonnement dans la réponse

Pour l’API Responses d’OpenAI, le raisonnement caché du modèle est retourné comme éléments reasoning dans la sortie de réponse. Pour Anthropic via /v1/messages natif, le thinking arrive comme entrées content_block de type thinking. La passerelle expose aussi un champ reasoning_content sur les réponses chat-completion quand l’amont en fournit un. Vous pouvez afficher la trace pour la transparence ou l’ignorer en production.

Facturation

Les tokens de raisonnement sont suivis séparément sur completion_tokens_details.reasoning_tokens dans l’objet usage de réponse — voir Opérations / Facturation et utilisation.