Pfad 1: input_audio in OpenAI-Form auf /v1/chat/completions
Das Gateway übersetzt den OpenAI-input_audio-Inhaltsteil
automatisch in das inline_data von Gemini. Das format-Feld wird
auf den richtigen MIME-Typ abgebildet (mp3 → audio/mp3, wav →
audio/wav, usw.).
Pfad 2: Natives /v1beta/ mit inline_data
Wenn du bereits auf dem nativen Protokoll von Gemini bist, übergib
inline_data direkt — keine Übersetzung erforderlich.
Unterstützte Modellfamilien
Multimodale Gemini-Modelle akzeptieren Inline-Audio — zum Beispielgoogle/gemini-2.5-flash und die Gemini-3.x-Linie. Das Verhalten
entspricht genau der von Google veröffentlichten Gemini-API.
