Reasoning - OrcaRouter

I modelli di reasoning spendono ulteriore computazione su una passata nascosta di “pensiero” prima di produrre la risposta finale. Sono più lenti e più costosi ma risolvono problemi più difficili. OrcaRouter fornisce una sintassi unificata per controllare l’effort di reasoning attraverso ogni provider — scegli la forma che si adatta al tuo client.

Due modi per impostare l’effort

1. Il campo `reasoning_effort` (forma OpenAI)

Passalo su una richiesta Chat Completions. Valori: low, medium, high (e minimal / max su alcuni modelli).

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

OrcaRouter traduce questo campo nella forma nativa dell’upstream:

Famiglia OpenAI o-series e gpt-5-pro: inoltrato come reasoning_effort nativo.
Anthropic Claude: mappato a thinking: {type: "enabled", budget_tokens: ...} con budget low→1280, medium→2048, high→4096. Per claude-opus-4.6 in particolare, mappato a thinking: {type: "adaptive"} più output_config.effort.
Google Gemini: mappato a generationConfig.thinkingConfig con includeThoughts: true e un livello di thinking / budget impostato dall’effort.
xAI Grok: inoltrato per la famiglia grok-3-mini (che accetta reasoning_effort nativamente).
DeepSeek reasoner: il modello è reasoner-by-design; reasoning_effort è un no-op.

2. Il suffisso `-{effort}` nel nome del modello

Puoi anche incorporare l’effort nel nome del modello. Suffissi riconosciuti: -minimal / -low / -medium / -high / -max.

# Equivalent to model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

Funziona allo stesso modo tra i provider — scegli la riga più leggibile nel tuo codice.

Famiglie di modelli di reasoning in questa distribuzione

OpenAI:

openai/o1, o1-pro
openai/o3, o3-mini, o3-mini-high
openai/o4-mini, o4-mini-high
famiglia openai/gpt-5-pro e gpt-5.x-pro

Anthropic (extended thinking su Claude 4 / Opus):

anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, ecc. — accoppiali con reasoning_effort o il suffisso -{effort}.

Google Gemini (extended thinking su Gemini 2.5 / 3.x):

google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, ecc. — accoppiali con reasoning_effort o il suffisso -{effort}.

DeepSeek:

deepseek/deepseek-reasoner — reasoner-by-design.

xAI Grok:

grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
grok/grok-3-mini accoppiato con reasoning_effort: low o high

Chiama /v1/models per il catalogo aggiornato.

Traccia di reasoning nella risposta

Per la Responses API di OpenAI il reasoning nascosto del modello viene restituito come elementi reasoning nell’output della risposta. Per Anthropic tramite /v1/messages nativo, il thinking arriva come voci content_block di tipo thinking. Il gateway espone anche un campo reasoning_content sulle risposte chat-completion dove l’upstream ne fornisce uno. Puoi visualizzare la traccia per trasparenza o ignorarla in produzione.

Fatturazione

I token di reasoning sono tracciati separatamente su completion_tokens_details .reasoning_tokens nell’oggetto usage della risposta — vedi Operazioni / Fatturazione e utilizzo.

​Due modi per impostare l’effort

​1. Il campo reasoning_effort (forma OpenAI)

​2. Il suffisso -{effort} nel nome del modello

​Famiglie di modelli di reasoning in questa distribuzione

​Traccia di reasoning nella risposta

​Fatturazione