Zwei Möglichkeiten, Effort zu setzen
1. Das Feld reasoning_effort (OpenAI-Form)
Übergib es bei einer Chat-Completions-Anfrage. Werte: low,
medium, high (und minimal / max auf einigen Modellen).
- OpenAI-o-Serie und gpt-5-pro-Familie: als natives
reasoning_effortweitergeleitet. - Anthropic Claude: abgebildet auf
thinking: {type: "enabled", budget_tokens: ...}mit Budgetslow→1280,medium→2048,high→4096. Fürclaude-opus-4.6speziell abgebildet aufthinking: {type: "adaptive"}plusoutput_config.effort. - Google Gemini: abgebildet auf
generationConfig.thinkingConfigmitincludeThoughts: trueund einer Thinking-Stufe / -Budget, das aus dem Effort gesetzt wird. - xAI Grok: weitergeleitet für die grok-3-mini-Familie (die
reasoning_effortnativ akzeptiert). - DeepSeek reasoner: Modell ist by-design Reasoner;
reasoning_effortist ein No-op.
2. Das Modellnamen-Suffix -{effort}
Du kannst den Effort auch in den Modellnamen einbacken. Erkannte
Suffixe: -minimal / -low / -medium / -high / -max.
Reasoning-Modellfamilien in diesem Deployment
OpenAI:openai/o1,o1-proopenai/o3,o3-mini,o3-mini-highopenai/o4-mini,o4-mini-highopenai/gpt-5-proundgpt-5.x-pro-Familie
anthropic/claude-sonnet-4.6,claude-opus-4.6,claude-opus-4.7, usw. — kombiniere mitreasoning_effortoder dem-{effort}-Suffix.
google/gemini-2.5-pro,gemini-2.5-flash,gemini-3-pro-preview, usw. — kombiniere mitreasoning_effortoder dem-{effort}-Suffix.
deepseek/deepseek-reasoner— Reasoner by Design.
grok/grok-4-fast-reasoning,grok-4-1-fast-reasoninggrok/grok-3-minikombiniert mitreasoning_effort: lowoderhigh
/v1/models für den Live-Katalog auf.
Reasoning-Spur in der Antwort
Für die OpenAI-Responses-API wird das versteckte Reasoning des Modells alsreasoning-Elemente in der Antwortausgabe
zurückgegeben. Für Anthropic über natives /v1/messages kommt
Thinking als content_block-Einträge vom Typ thinking an. Das
Gateway stellt auch ein reasoning_content-Feld auf
Chat-Completion-Antworten bereit, wo der Upstream eines liefert.
Du kannst die Spur zur Transparenz anzeigen oder in der Produktion
ignorieren.
Abrechnung
Reasoning-Tokens werden separat aufcompletion_tokens_details.reasoning_tokens im Usage-Objekt der
Antwort nachverfolgt — siehe
Betrieb / Abrechnung & Nutzung.