パス 1: /v1/chat/completions 上の OpenAI 形式 input_audio
ゲートウェイは OpenAI の input_audio コンテンツパートを自動的に
Gemini の inline_data に変換します。format フィールドは適切な
MIME 型に対応付けられます (mp3 → audio/mp3、wav → audio/wav
など)。
パス 2: ネイティブ /v1beta/ の inline_data
すでに Gemini のネイティブプロトコルを使っているなら、変換なしで
inline_data を直接渡せます。
対応モデルファミリー
Gemini マルチモーダルモデル——google/gemini-2.5-flash や Gemini 3.x
系列など——がインライン音声を受け付けます。挙動は Google が公開する
Gemini API と完全に一致します。
