路徑 1:/v1/chat/completions 上的 OpenAI 形態 input_audio
網關會自動把 OpenAI 的 input_audio 內容片段翻譯為 Gemini 的
inline_data。format 字段會映射到正確的 MIME 類型(mp3 →
audio/mp3、wav → audio/wav 等等)。
路徑 2:原生 /v1beta/ + inline_data
如果你已經在用 Gemini 原生協議,直接傳 inline_data——無需任何
翻譯。
支持的模型家族
Gemini 多模態模型支持內聯音頻——例如google/gemini-2.5-flash 及
Gemini 3.x 系列。行為完全與 Google 公布的 Gemini API 一致。
