Saltar para o conteúdo principal
Modelos de raciocínio gastam computação extra em uma passagem oculta de “pensamento” antes de produzir a resposta final. Eles são mais lentos e mais caros, mas resolvem problemas mais difíceis. O OrcaRouter fornece uma sintaxe unificada para controlar o esforço de raciocínio em todos os provedores — escolha a forma que se ajusta ao seu cliente.

Duas formas de definir o esforço

1. O campo reasoning_effort (formato OpenAI)

Passe-o em uma requisição Chat Completions. Valores: low, medium, high (e minimal / max em alguns modelos).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
O OrcaRouter traduz este campo para o formato nativo do upstream:
  • Família OpenAI série-o e gpt-5-pro: encaminhado como reasoning_effort nativo.
  • Anthropic Claude: mapeado para thinking: {type: "enabled", budget_tokens: ...} com orçamentos low→1280, medium→2048, high→4096. Para claude-opus-4.6 especificamente, mapeado para thinking: {type: "adaptive"} mais output_config.effort.
  • Google Gemini: mapeado para generationConfig.thinkingConfig com includeThoughts: true e um nível / orçamento de pensamento definido pelo esforço.
  • xAI Grok: encaminhado para a família grok-3-mini (que aceita reasoning_effort nativamente).
  • DeepSeek reasoner: o modelo é reasoner-por-design; reasoning_effort é um no-op.

2. O sufixo -{effort} no nome do modelo

Você também pode embutir o esforço no nome do modelo. Sufixos reconhecidos: -minimal / -low / -medium / -high / -max.
# Equivalente a model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
Funciona da mesma forma entre provedores — escolha a linha mais legível no seu código.

Famílias de modelos de raciocínio nesta implantação

OpenAI:
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • Família openai/gpt-5-pro e gpt-5.x-pro
Anthropic (extended thinking em Claude 4 / Opus):
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, etc. — combine com reasoning_effort ou o sufixo -{effort}.
Google Gemini (extended thinking em Gemini 2.5 / 3.x):
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, etc. — combine com reasoning_effort ou o sufixo -{effort}.
DeepSeek:
  • deepseek/deepseek-reasoner — reasoner-por-design.
xAI Grok:
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-mini combinado com reasoning_effort: low ou high
Chame /v1/models para o catálogo ativo.

Rastro de raciocínio na resposta

Para a Responses API da OpenAI, o raciocínio oculto do modelo é retornado como itens reasoning no output da resposta. Para Anthropic via /v1/messages nativo, o pensamento chega como entradas de content_block do tipo thinking. O gateway também expõe um campo reasoning_content em respostas de chat-completion onde o upstream fornece um. Você pode exibir o rastro por transparência ou ignorá-lo em produção.

Faturamento

Tokens de raciocínio são rastreados separadamente em completion_tokens_details.reasoning_tokens no objeto usage da resposta — veja Operações / Faturamento e uso.