Reasoning - OrcaRouter

Reasoning-Modelle verbrauchen zusätzliche Rechenleistung für einen versteckten “Denk”-Pass, bevor sie die endgültige Antwort produzieren. Sie sind langsamer und teurer, lösen aber schwierigere Probleme. OrcaRouter stellt eine einheitliche Syntax zur Steuerung des Reasoning-Aufwands bei jedem Anbieter bereit — wähle die Form, die zu deinem Client passt.

Zwei Möglichkeiten, Effort zu setzen

1. Das Feld `reasoning_effort` (OpenAI-Form)

Übergib es bei einer Chat-Completions-Anfrage. Werte: low, medium, high (und minimal / max auf einigen Modellen).

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

OrcaRouter übersetzt dieses Feld in die native Form des Upstreams:

OpenAI-o-Serie und gpt-5-pro-Familie: als natives reasoning_effort weitergeleitet.
Anthropic Claude: abgebildet auf thinking: {type: "enabled", budget_tokens: ...} mit Budgets low→1280, medium→2048, high→4096. Für claude-opus-4.6 speziell abgebildet auf thinking: {type: "adaptive"} plus output_config.effort.
Google Gemini: abgebildet auf generationConfig.thinkingConfig mit includeThoughts: true und einer Thinking-Stufe / -Budget, das aus dem Effort gesetzt wird.
xAI Grok: weitergeleitet für die grok-3-mini-Familie (die reasoning_effort nativ akzeptiert).
DeepSeek reasoner: Modell ist by-design Reasoner; reasoning_effort ist ein No-op.

2. Das Modellnamen-Suffix `-{effort}`

Du kannst den Effort auch in den Modellnamen einbacken. Erkannte Suffixe: -minimal / -low / -medium / -high / -max.

# Äquivalent zu model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

Funktioniert über Anbieter hinweg gleich — wähle die Zeile, die in deinem Code lesbarer ist.

Reasoning-Modellfamilien in diesem Deployment

OpenAI:

openai/o1, o1-pro
openai/o3, o3-mini, o3-mini-high
openai/o4-mini, o4-mini-high
openai/gpt-5-pro und gpt-5.x-pro-Familie

Anthropic (Extended Thinking auf Claude 4 / Opus):

anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, usw. — kombiniere mit reasoning_effort oder dem -{effort}-Suffix.

Google Gemini (Extended Thinking auf Gemini 2.5 / 3.x):

google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, usw. — kombiniere mit reasoning_effort oder dem -{effort}-Suffix.

DeepSeek:

deepseek/deepseek-reasoner — Reasoner by Design.

xAI Grok:

grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
grok/grok-3-mini kombiniert mit reasoning_effort: low oder high

Rufe /v1/models für den Live-Katalog auf.

Reasoning-Spur in der Antwort

Für die OpenAI-Responses-API wird das versteckte Reasoning des Modells als reasoning-Elemente in der Antwortausgabe zurückgegeben. Für Anthropic über natives /v1/messages kommt Thinking als content_block-Einträge vom Typ thinking an. Das Gateway stellt auch ein reasoning_content-Feld auf Chat-Completion-Antworten bereit, wo der Upstream eines liefert. Du kannst die Spur zur Transparenz anzeigen oder in der Produktion ignorieren.

Abrechnung

Reasoning-Tokens werden separat auf completion_tokens_details.reasoning_tokens im Usage-Objekt der Antwort nachverfolgt — siehe Betrieb / Abrechnung & Nutzung.

​Zwei Möglichkeiten, Effort zu setzen

​1. Das Feld reasoning_effort (OpenAI-Form)

​2. Das Modellnamen-Suffix -{effort}

​Reasoning-Modellfamilien in diesem Deployment

​Reasoning-Spur in der Antwort

​Abrechnung