Reasoning - OrcaRouter

Modele reasoning wydają dodatkowy compute na ukryty przejazd “thinking” przed wyprodukowaniem ostatecznej odpowiedzi. Są wolniejsze i droższe, ale rozwiązują trudniejsze problemy. OrcaRouter zapewnia jedną ujednoliconą składnię do sterowania reasoning effort u wszystkich dostawców — wybierz formę, która pasuje do Twojego klienta.

Dwa sposoby ustawienia effort

1. Pole `reasoning_effort` (kształt OpenAI)

Przekaż je w żądaniu Chat Completions. Wartości: low, medium, high (oraz minimal / max w niektórych modelach).

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

OrcaRouter tłumaczy to pole na natywny kształt upstreamu:

Rodzina OpenAI o-series i gpt-5-pro: przekazane jako natywne reasoning_effort.
Anthropic Claude: mapowane na thinking: {type: "enabled", budget_tokens: ...} z budżetami low→1280, medium→2048, high→4096. Dla claude-opus-4.6 specyficznie mapowane na thinking: {type: "adaptive"} plus output_config.effort.
Google Gemini: mapowane na generationConfig.thinkingConfig z includeThoughts: true i poziomem thinking / budżetem ustawionym z effort.
xAI Grok: przekazywane dla rodziny grok-3-mini (która akceptuje reasoning_effort natywnie).
DeepSeek reasoner: model jest reasonerem z założenia; reasoning_effort to no-op.

2. Sufiks `-{effort}` w nazwie modelu

Możesz też wpisać effort w nazwę modelu. Rozpoznawane sufiksy: -minimal / -low / -medium / -high / -max.

# Odpowiednik model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

Działa tak samo u wszystkich dostawców — wybierz formę bardziej czytelną w Twoim kodzie.

Rodziny modeli reasoning w tym wdrożeniu

OpenAI:

openai/o1, o1-pro
openai/o3, o3-mini, o3-mini-high
openai/o4-mini, o4-mini-high
openai/gpt-5-pro i rodzina gpt-5.x-pro

Anthropic (extended thinking na Claude 4 / Opus):

anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7 itd. — sparuj z reasoning_effort lub sufiksem -{effort}.

Google Gemini (extended thinking na Gemini 2.5 / 3.x):

google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview itd. — sparuj z reasoning_effort lub sufiksem -{effort}.

DeepSeek:

deepseek/deepseek-reasoner — reasoner z założenia.

xAI Grok:

grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
grok/grok-3-mini sparowany z reasoning_effort: low lub high

Wywołaj /v1/models, aby zobaczyć aktualny katalog.

Ślad reasoning w odpowiedzi

Dla OpenAI Responses API ukryty reasoning modelu jest zwracany jako elementy reasoning w output odpowiedzi. Dla Anthropic przez natywne /v1/messages, thinking przychodzi jako wpisy content_block typu thinking. Brama również udostępnia pole reasoning_content na odpowiedziach chat-completion, gdzie upstream je udostępnia. Możesz wyświetlać ślad dla przejrzystości lub ignorować go na produkcji.

Rozliczenia

Tokeny reasoning są śledzone osobno na completion_tokens_details .reasoning_tokens w obiekcie usage odpowiedzi — zobacz Operacje / Rozliczenia i zużycie.

​Dwa sposoby ustawienia effort

​1. Pole reasoning_effort (kształt OpenAI)

​2. Sufiks -{effort} w nazwie modelu

​Rodziny modeli reasoning w tym wdrożeniu

​Ślad reasoning w odpowiedzi

​Rozliczenia