Przejdź do głównej treści
Modele reasoning wydają dodatkowy compute na ukryty przejazd “thinking” przed wyprodukowaniem ostatecznej odpowiedzi. Są wolniejsze i droższe, ale rozwiązują trudniejsze problemy. OrcaRouter zapewnia jedną ujednoliconą składnię do sterowania reasoning effort u wszystkich dostawców — wybierz formę, która pasuje do Twojego klienta.

Dwa sposoby ustawienia effort

1. Pole reasoning_effort (kształt OpenAI)

Przekaż je w żądaniu Chat Completions. Wartości: low, medium, high (oraz minimal / max w niektórych modelach).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter tłumaczy to pole na natywny kształt upstreamu:
  • Rodzina OpenAI o-series i gpt-5-pro: przekazane jako natywne reasoning_effort.
  • Anthropic Claude: mapowane na thinking: {type: "enabled", budget_tokens: ...} z budżetami low→1280, medium→2048, high→4096. Dla claude-opus-4.6 specyficznie mapowane na thinking: {type: "adaptive"} plus output_config.effort.
  • Google Gemini: mapowane na generationConfig.thinkingConfig z includeThoughts: true i poziomem thinking / budżetem ustawionym z effort.
  • xAI Grok: przekazywane dla rodziny grok-3-mini (która akceptuje reasoning_effort natywnie).
  • DeepSeek reasoner: model jest reasonerem z założenia; reasoning_effort to no-op.

2. Sufiks -{effort} w nazwie modelu

Możesz też wpisać effort w nazwę modelu. Rozpoznawane sufiksy: -minimal / -low / -medium / -high / -max.
# Odpowiednik model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
Działa tak samo u wszystkich dostawców — wybierz formę bardziej czytelną w Twoim kodzie.

Rodziny modeli reasoning w tym wdrożeniu

OpenAI:
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • openai/gpt-5-pro i rodzina gpt-5.x-pro
Anthropic (extended thinking na Claude 4 / Opus):
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7 itd. — sparuj z reasoning_effort lub sufiksem -{effort}.
Google Gemini (extended thinking na Gemini 2.5 / 3.x):
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview itd. — sparuj z reasoning_effort lub sufiksem -{effort}.
DeepSeek:
  • deepseek/deepseek-reasoner — reasoner z założenia.
xAI Grok:
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-mini sparowany z reasoning_effort: low lub high
Wywołaj /v1/models, aby zobaczyć aktualny katalog.

Ślad reasoning w odpowiedzi

Dla OpenAI Responses API ukryty reasoning modelu jest zwracany jako elementy reasoning w output odpowiedzi. Dla Anthropic przez natywne /v1/messages, thinking przychodzi jako wpisy content_block typu thinking. Brama również udostępnia pole reasoning_content na odpowiedziach chat-completion, gdzie upstream je udostępnia. Możesz wyświetlać ślad dla przejrzystości lub ignorować go na produkcji.

Rozliczenia

Tokeny reasoning są śledzone osobno na completion_tokens_details .reasoning_tokens w obiekcie usage odpowiedzi — zobacz Operacje / Rozliczenia i zużycie.