Zum Hauptinhalt springen
Reasoning-Modelle verbrauchen zusätzliche Rechenleistung für einen versteckten “Denk”-Pass, bevor sie die endgültige Antwort produzieren. Sie sind langsamer und teurer, lösen aber schwierigere Probleme. OrcaRouter stellt eine einheitliche Syntax zur Steuerung des Reasoning-Aufwands bei jedem Anbieter bereit — wähle die Form, die zu deinem Client passt.

Zwei Möglichkeiten, Effort zu setzen

1. Das Feld reasoning_effort (OpenAI-Form)

Übergib es bei einer Chat-Completions-Anfrage. Werte: low, medium, high (und minimal / max auf einigen Modellen).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter übersetzt dieses Feld in die native Form des Upstreams:
  • OpenAI-o-Serie und gpt-5-pro-Familie: als natives reasoning_effort weitergeleitet.
  • Anthropic Claude: abgebildet auf thinking: {type: "enabled", budget_tokens: ...} mit Budgets low→1280, medium→2048, high→4096. Für claude-opus-4.6 speziell abgebildet auf thinking: {type: "adaptive"} plus output_config.effort.
  • Google Gemini: abgebildet auf generationConfig.thinkingConfig mit includeThoughts: true und einer Thinking-Stufe / -Budget, das aus dem Effort gesetzt wird.
  • xAI Grok: weitergeleitet für die grok-3-mini-Familie (die reasoning_effort nativ akzeptiert).
  • DeepSeek reasoner: Modell ist by-design Reasoner; reasoning_effort ist ein No-op.

2. Das Modellnamen-Suffix -{effort}

Du kannst den Effort auch in den Modellnamen einbacken. Erkannte Suffixe: -minimal / -low / -medium / -high / -max.
# Äquivalent zu model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
Funktioniert über Anbieter hinweg gleich — wähle die Zeile, die in deinem Code lesbarer ist.

Reasoning-Modellfamilien in diesem Deployment

OpenAI:
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • openai/gpt-5-pro und gpt-5.x-pro-Familie
Anthropic (Extended Thinking auf Claude 4 / Opus):
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, usw. — kombiniere mit reasoning_effort oder dem -{effort}-Suffix.
Google Gemini (Extended Thinking auf Gemini 2.5 / 3.x):
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, usw. — kombiniere mit reasoning_effort oder dem -{effort}-Suffix.
DeepSeek:
  • deepseek/deepseek-reasoner — Reasoner by Design.
xAI Grok:
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-mini kombiniert mit reasoning_effort: low oder high
Rufe /v1/models für den Live-Katalog auf.

Reasoning-Spur in der Antwort

Für die OpenAI-Responses-API wird das versteckte Reasoning des Modells als reasoning-Elemente in der Antwortausgabe zurückgegeben. Für Anthropic über natives /v1/messages kommt Thinking als content_block-Einträge vom Typ thinking an. Das Gateway stellt auch ein reasoning_content-Feld auf Chat-Completion-Antworten bereit, wo der Upstream eines liefert. Du kannst die Spur zur Transparenz anzeigen oder in der Produktion ignorieren.

Abrechnung

Reasoning-Tokens werden separat auf completion_tokens_details.reasoning_tokens im Usage-Objekt der Antwort nachverfolgt — siehe Betrieb / Abrechnung & Nutzung.