Перейти к основному содержанию
Ввод аудио поддерживается мультимодальными моделями Gemini. Два пути:

Путь 1: input_audio в формате OpenAI на /v1/chat/completions

Шлюз автоматически транслирует часть контента OpenAI input_audio в Gemini inline_data. Поле format сопоставляется с правильным MIME-типом (mp3audio/mp3, wavaudio/wav и т. д.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Путь 2: нативный /v1beta/ с inline_data

Если вы уже на нативном протоколе Gemini, передавайте inline_data напрямую — никакой трансляции.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Поддерживаемые семейства моделей

Мультимодальные модели Gemini принимают inline-аудио — например, google/gemini-2.5-flash и линейка Gemini 3.x. Поведение в точности соответствует опубликованному Gemini API от Google.

Ограничения

Inline-аудио ограничено по размеру upstream-провайдером. Для более длинных файлов типичный обходной путь — собственный File API провайдера (загрузка вне OrcaRouter напрямую к провайдеру). Текущие лимиты по размеру и длительности см. в документации Google Gemini API.

См. также