effort を設定する 2 つの方法
1. reasoning_effort フィールド (OpenAI 形式)
Chat Completions リクエストで渡します。値: low、medium、high
(一部のモデルでは minimal / max も)。
- OpenAI o シリーズと gpt-5-pro ファミリー: ネイティブの
reasoning_effortとして転送。 - Anthropic Claude:
thinking: {type: "enabled", budget_tokens: ...}に対応付け。予算はlow→1280、medium→2048、high→4096。claude-opus-4.6専用にはthinking: {type: "adaptive"}+output_config.effortに対応付け。 - Google Gemini:
generationConfig.thinkingConfigに対応付け、includeThoughts: trueと effort に応じた thinking レベル/予算を 設定。 - xAI Grok: grok-3-mini ファミリー (ネイティブで
reasoning_effortを受け付ける) に転送。 - DeepSeek reasoner: 設計上の推論モデル;
reasoning_effortは ノーオペ。
2. モデル名サフィックス -{effort}
effort をモデル名に焼き込むこともできます。認識されるサフィックス:
-minimal / -low / -medium / -high / -max。
このデプロイの推論モデルファミリー
OpenAI:openai/o1、o1-proopenai/o3、o3-mini、o3-mini-highopenai/o4-mini、o4-mini-highopenai/gpt-5-proとgpt-5.x-proファミリー
anthropic/claude-sonnet-4.6、claude-opus-4.6、claude-opus-4.7など ——reasoning_effortまたは-{effort}サフィックスと組み合わせて使用。
google/gemini-2.5-pro、gemini-2.5-flash、gemini-3-pro-previewなど ——reasoning_effortまたは-{effort}サフィックスと組み合わせて使用。
deepseek/deepseek-reasoner—— 設計上の推論モデル。
grok/grok-4-fast-reasoning、grok-4-1-fast-reasoninggrok/grok-3-miniをreasoning_effort: lowまたはhighと組み合わせ
/v1/models を呼んで取得してください。
レスポンス内の推論トレース
OpenAI Responses API では、モデルの隠れた推論はレスポンス出力中のreasoning 項目として返されます。ネイティブの /v1/messages 経由
の Anthropic では、thinking は thinking 型の content_block
エントリとして到着します。ゲートウェイは上流が提供する場合の
reasoning_content フィールドも chat-completion レスポンスに公開
します。
トレースは透明性のために表示することも、本番環境で無視することも
できます。
課金
推論トークンはレスポンスの usage オブジェクトのcompletion_tokens_details.reasoning_tokens 上で別途追跡されます
—— 運用 / 課金と使用量 を参照
してください。