Синтез речи (TTS)

OrcaRouter предоставляет два пути для синтеза речи в зависимости от того, TTS-модель какого провайдера вы хотите использовать.

Формат OpenAI: `/v1/audio/speech`

Используется с семейством TTS-моделей OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts и аналогичными:

curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3

Ответ представляет собой бинарное аудио. Заголовок Content-Type сообщает, в каком формате апстрим вернул данные (audio/mpeg, audio/wav, audio/opus или audio/flac).

Gemini TTS: нативный `/v1beta/`

Превью TTS-модели Gemini (например, google/gemini-2.5-flash-preview-tts) не обслуживаются по /v1/audio/speech — обращайтесь к ним через нативный интерфейс Gemini:

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'

Байты аудио возвращаются в base64 внутри поля inlineData ответа. Полный набор имён голосов и параметров конфигурации см. в документации Google Gemini TTS.

См. также

Справочник API / Audio — полная схема с try-it
Нативные форматы / Gemini
Расширенные возможности / Аудио на входе — отправка аудио В чат-модель

Изображения Промпты

​Формат OpenAI: /v1/audio/speech

​Gemini TTS: нативный /v1beta/

​См. также

Формат OpenAI: `/v1/audio/speech`

Gemini TTS: нативный `/v1beta/`

См. также