跳转到主要内容
音频输入受 Gemini 多模态模型支持,有两条路径可选。

路径 1:/v1/chat/completions 上的 OpenAI 形态 input_audio

网关会自动把 OpenAI 的 input_audio 内容片段翻译为 Gemini 的 inline_dataformat 字段会映射到正确的 MIME 类型(mp3audio/mp3wavaudio/wav 等等)。
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

路径 2:原生 /v1beta/ + inline_data

如果你已经在用 Gemini 原生协议,直接传 inline_data——无需任何 翻译。
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

支持的模型家族

Gemini 多模态模型支持内联音频——例如 google/gemini-2.5-flash 及 Gemini 3.x 系列。行为完全与 Google 公布的 Gemini API 一致。

限制

内联音频载荷的大小受上游服务商限制。对于较长的文件,常见做法是直接 使用上游的 File API(绕开 OrcaRouter,由你自己的应用直接上传到服务商)。 当前的尺寸与时长限制请查阅 Google Gemini API 文档。

另见