推論 - OrcaRouter

推論モデルは最終回答を出す前に隠れた “思考” パスに追加の計算を費やします。低速かつ高価ですが、より難しい問題を解けます。 OrcaRouter はすべてのプロバイダで推論の effort を制御する 統一構文 を提供します——クライアントに合う形を選んでください。

effort を設定する 2 つの方法

1. `reasoning_effort` フィールド (OpenAI 形式)

Chat Completions リクエストで渡します。値: low、medium、high (一部のモデルでは minimal / max も)。

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)

OrcaRouter はこのフィールドを上流のネイティブ形式に変換します:

OpenAI o シリーズと gpt-5-pro ファミリー: ネイティブの reasoning_effort として転送。
Anthropic Claude: thinking: {type: "enabled", budget_tokens: ...} に対応付け。予算は low→1280、 medium→2048、high→4096。claude-opus-4.6 専用には thinking: {type: "adaptive"} + output_config.effort に対応付け。
Google Gemini: generationConfig.thinkingConfig に対応付け、 includeThoughts: true と effort に応じた thinking レベル/予算を設定。
xAI Grok: grok-3-mini ファミリー (ネイティブで reasoning_effort を受け付ける) に転送。
DeepSeek reasoner: 設計上の推論モデル; reasoning_effort はノーオペ。

2. モデル名サフィックス `-{effort}`

effort をモデル名に焼き込むこともできます。認識されるサフィックス: -minimal / -low / -medium / -high / -max。

# model="anthropic/claude-opus-4.6" + reasoning_effort="high" と同等
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)

プロバイダ間で同じように動作します——コードで読みやすい方を選んでください。

このデプロイの推論モデルファミリー

OpenAI:

openai/o1、o1-pro
openai/o3、o3-mini、o3-mini-high
openai/o4-mini、o4-mini-high
openai/gpt-5-pro と gpt-5.x-pro ファミリー

Anthropic (Claude 4 / Opus の extended thinking):

anthropic/claude-sonnet-4.6、claude-opus-4.6、 claude-opus-4.7 など —— reasoning_effort または -{effort} サフィックスと組み合わせて使用。

Google Gemini (Gemini 2.5 / 3.x の extended thinking):

google/gemini-2.5-pro、gemini-2.5-flash、 gemini-3-pro-preview など —— reasoning_effort または -{effort} サフィックスと組み合わせて使用。

DeepSeek:

deepseek/deepseek-reasoner —— 設計上の推論モデル。

xAI Grok:

grok/grok-4-fast-reasoning、grok-4-1-fast-reasoning
grok/grok-3-mini を reasoning_effort: low または high と組み合わせ

実時カタログは /v1/models を呼んで取得してください。

レスポンス内の推論トレース

OpenAI Responses API では、モデルの隠れた推論はレスポンス出力中の reasoning 項目として返されます。ネイティブの /v1/messages 経由の Anthropic では、thinking は thinking 型の content_block エントリとして到着します。ゲートウェイは上流が提供する場合の reasoning_content フィールドも chat-completion レスポンスに公開します。トレースは透明性のために表示することも、本番環境で無視することもできます。

課金

推論トークンはレスポンスの usage オブジェクトの completion_tokens_details.reasoning_tokens 上で別途追跡されます —— 運用 / 課金と使用量を参照してください。

​effort を設定する 2 つの方法

​1. reasoning_effort フィールド (OpenAI 形式)

​2. モデル名サフィックス -{effort}

​このデプロイの推論モデルファミリー

​レスポンス内の推論トレース

​課金

effort を設定する 2 つの方法

1. `reasoning_effort` フィールド (OpenAI 形式)

2. モデル名サフィックス `-{effort}`

このデプロイの推論モデルファミリー

レスポンス内の推論トレース

課金