Ścieżka 1: input_audio w kształcie OpenAI na /v1/chat/completions
Brama tłumaczy część treści input_audio z OpenAI na inline_data
Gemini automatycznie. Pole format mapuje się na właściwy typ MIME
(mp3 → audio/mp3, wav → audio/wav itd.).
Ścieżka 2: natywne /v1beta/ z inline_data
Jeśli już używasz natywnego protokołu Gemini, przekaż inline_data
bezpośrednio — bez tłumaczenia.
Obsługiwane rodziny modeli
Multimodalne modele Gemini akceptują inline audio — na przykładgoogle/gemini-2.5-flash i linia Gemini 3.x. Zachowanie odpowiada
dokładnie opublikowanemu API Gemini od Google.
