Raciocínio - OrcaRouter

Modelos de raciocínio gastam computação extra em uma passagem oculta de “pensamento” antes de produzir a resposta final. Eles são mais lentos e mais caros, mas resolvem problemas mais difíceis. O OrcaRouter fornece uma sintaxe unificada para controlar o esforço de raciocínio em todos os provedores — escolha a forma que se ajusta ao seu cliente.

Duas formas de definir o esforço

1. O campo `reasoning_effort` (formato OpenAI)

Passe-o em uma requisição Chat Completions. Valores: low, medium, high (e minimal / max em alguns modelos).

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

O OrcaRouter traduz este campo para o formato nativo do upstream:

Família OpenAI série-o e gpt-5-pro: encaminhado como reasoning_effort nativo.
Anthropic Claude: mapeado para thinking: {type: "enabled", budget_tokens: ...} com orçamentos low→1280, medium→2048, high→4096. Para claude-opus-4.6 especificamente, mapeado para thinking: {type: "adaptive"} mais output_config.effort.
Google Gemini: mapeado para generationConfig.thinkingConfig com includeThoughts: true e um nível / orçamento de pensamento definido pelo esforço.
xAI Grok: encaminhado para a família grok-3-mini (que aceita reasoning_effort nativamente).
DeepSeek reasoner: o modelo é reasoner-por-design; reasoning_effort é um no-op.

2. O sufixo `-{effort}` no nome do modelo

Você também pode embutir o esforço no nome do modelo. Sufixos reconhecidos: -minimal / -low / -medium / -high / -max.

# Equivalente a model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

Funciona da mesma forma entre provedores — escolha a linha mais legível no seu código.

Famílias de modelos de raciocínio nesta implantação

OpenAI:

openai/o1, o1-pro
openai/o3, o3-mini, o3-mini-high
openai/o4-mini, o4-mini-high
Família openai/gpt-5-pro e gpt-5.x-pro

Anthropic (extended thinking em Claude 4 / Opus):

anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, etc. — combine com reasoning_effort ou o sufixo -{effort}.

Google Gemini (extended thinking em Gemini 2.5 / 3.x):

google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, etc. — combine com reasoning_effort ou o sufixo -{effort}.

DeepSeek:

deepseek/deepseek-reasoner — reasoner-por-design.

xAI Grok:

grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
grok/grok-3-mini combinado com reasoning_effort: low ou high

Chame /v1/models para o catálogo ativo.

Rastro de raciocínio na resposta

Para a Responses API da OpenAI, o raciocínio oculto do modelo é retornado como itens reasoning no output da resposta. Para Anthropic via /v1/messages nativo, o pensamento chega como entradas de content_block do tipo thinking. O gateway também expõe um campo reasoning_content em respostas de chat-completion onde o upstream fornece um. Você pode exibir o rastro por transparência ou ignorá-lo em produção.

Faturamento

Tokens de raciocínio são rastreados separadamente em completion_tokens_details.reasoning_tokens no objeto usage da resposta — veja Operações / Faturamento e uso.

​Duas formas de definir o esforço

​1. O campo reasoning_effort (formato OpenAI)

​2. O sufixo -{effort} no nome do modelo

​Famílias de modelos de raciocínio nesta implantação

​Rastro de raciocínio na resposta

​Faturamento