メインコンテンツへスキップ
推論モデルは最終回答を出す前に隠れた “思考” パスに追加の計算を 費やします。低速かつ高価ですが、より難しい問題を解けます。 OrcaRouter はすべてのプロバイダで推論の effort を制御する 統一構文 を提供します——クライアントに合う形を選んでください。

effort を設定する 2 つの方法

1. reasoning_effort フィールド (OpenAI 形式)

Chat Completions リクエストで渡します。値: lowmediumhigh (一部のモデルでは minimal / max も)。
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter はこのフィールドを上流のネイティブ形式に変換します:
  • OpenAI o シリーズと gpt-5-pro ファミリー: ネイティブの reasoning_effort として転送。
  • Anthropic Claude: thinking: {type: "enabled", budget_tokens: ...} に対応付け。予算は low→1280、 medium→2048、high→4096。claude-opus-4.6 専用には thinking: {type: "adaptive"} + output_config.effort に対応付け。
  • Google Gemini: generationConfig.thinkingConfig に対応付け、 includeThoughts: true と effort に応じた thinking レベル/予算を 設定。
  • xAI Grok: grok-3-mini ファミリー (ネイティブで reasoning_effort を受け付ける) に転送。
  • DeepSeek reasoner: 設計上の推論モデル; reasoning_effort は ノーオペ。

2. モデル名サフィックス -{effort}

effort をモデル名に焼き込むこともできます。認識されるサフィックス: -minimal / -low / -medium / -high / -max
# model="anthropic/claude-opus-4.6" + reasoning_effort="high" と同等
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
プロバイダ間で同じように動作します——コードで読みやすい方を選んで ください。

このデプロイの推論モデルファミリー

OpenAI:
  • openai/o1o1-pro
  • openai/o3o3-minio3-mini-high
  • openai/o4-minio4-mini-high
  • openai/gpt-5-progpt-5.x-pro ファミリー
Anthropic (Claude 4 / Opus の extended thinking):
  • anthropic/claude-sonnet-4.6claude-opus-4.6claude-opus-4.7 など —— reasoning_effort または -{effort} サフィックスと組み合わせて使用。
Google Gemini (Gemini 2.5 / 3.x の extended thinking):
  • google/gemini-2.5-progemini-2.5-flashgemini-3-pro-preview など —— reasoning_effort または -{effort} サフィックスと組み合わせて使用。
DeepSeek:
  • deepseek/deepseek-reasoner —— 設計上の推論モデル。
xAI Grok:
  • grok/grok-4-fast-reasoninggrok-4-1-fast-reasoning
  • grok/grok-3-minireasoning_effort: low または high と組み合わせ
実時カタログは /v1/models を呼んで取得してください。

レスポンス内の推論トレース

OpenAI Responses API では、モデルの隠れた推論はレスポンス出力中の reasoning 項目として返されます。ネイティブの /v1/messages 経由 の Anthropic では、thinking は thinking 型の content_block エントリとして到着します。ゲートウェイは上流が提供する場合の reasoning_content フィールドも chat-completion レスポンスに公開 します。 トレースは透明性のために表示することも、本番環境で無視することも できます。

課金

推論トークンはレスポンスの usage オブジェクトの completion_tokens_details.reasoning_tokens 上で別途追跡されます —— 運用 / 課金と使用量 を参照 してください。