Saltar al contenido principal
Los modelos de razonamiento gastan cómputo extra en una pasada oculta de “pensamiento” antes de producir la respuesta final. Son más lentos y más caros pero resuelven problemas más difíciles. OrcaRouter proporciona una sintaxis unificada para controlar el esfuerzo de razonamiento entre cada proveedor — elige la forma que se ajuste a tu cliente.

Dos formas de establecer el esfuerzo

1. El campo reasoning_effort (forma OpenAI)

Pásalo en una solicitud Chat Completions. Valores: low, medium, high (y minimal / max en algunos modelos).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter traduce este campo a la forma nativa del upstream:
  • Serie o de OpenAI y familia gpt-5-pro: reenviado como reasoning_effort nativo.
  • Anthropic Claude: mapeado a thinking: {type: "enabled", budget_tokens: ...} con presupuestos low→1280, medium→2048, high→4096. Para claude-opus-4.6 específicamente, mapeado a thinking: {type: "adaptive"} más output_config.effort.
  • Google Gemini: mapeado a generationConfig.thinkingConfig con includeThoughts: true y un nivel / presupuesto de pensamiento establecido desde el esfuerzo.
  • xAI Grok: reenviado para la familia grok-3-mini (que acepta reasoning_effort nativamente).
  • DeepSeek reasoner: el modelo es razonador por diseño; reasoning_effort es un no-op.

2. El sufijo de nombre de modelo -{effort}

También puedes incrustar el esfuerzo en el nombre del modelo. Sufijos reconocidos: -minimal / -low / -medium / -high / -max.
# Equivalente a model="anthropic/claude-opus-4.6" + reasoning_effort="high"
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
Funciona igual entre proveedores — elige la línea más legible en tu código.

Familias de modelos de razonamiento en este despliegue

OpenAI:
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • openai/gpt-5-pro y familia gpt-5.x-pro
Anthropic (pensamiento extendido en Claude 4 / Opus):
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7, etc. — combina con reasoning_effort o el sufijo -{effort}.
Google Gemini (pensamiento extendido en Gemini 2.5 / 3.x):
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview, etc. — combina con reasoning_effort o el sufijo -{effort}.
DeepSeek:
  • deepseek/deepseek-reasoner — razonador por diseño.
xAI Grok:
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-mini combinado con reasoning_effort: low o high
Llama a /v1/models para el catálogo en vivo.

Rastro de razonamiento en la respuesta

Para la API Responses de OpenAI, el razonamiento oculto del modelo se devuelve como elementos reasoning en la salida de la respuesta. Para Anthropic vía /v1/messages nativo, el pensamiento llega como entradas content_block de tipo thinking. La pasarela también expone un campo reasoning_content en las respuestas chat-completion donde el upstream proporciona uno. Puedes mostrar el rastro por transparencia o ignorarlo en producción.

Facturación

Los tokens de razonamiento se rastrean por separado en completion_tokens_details.reasoning_tokens en el objeto usage de la respuesta — consulta Operaciones / Facturación y uso.