Synthèse vocale - OrcaRouter

OrcaRouter expose deux chemins pour la synthèse vocale selon le modèle TTS du fournisseur que vous voulez utiliser.

Forme OpenAI : `/v1/audio/speech`

Utilisez-le avec la famille de modèles TTS d’OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts, etc. :

curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3

La réponse est de l’audio binaire. L’en-tête Content-Type vous indique le format que l’amont a retourné (audio/mpeg, audio/wav, audio/opus, ou audio/flac).

Gemini TTS : `/v1beta/` natif

Les modèles preview Gemini TTS (par ex. google/gemini-2.5-flash-preview-tts) ne sont pas servis sur /v1/audio/speech — appelez-les via la surface native de Gemini à la place :

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'

Les octets audio reviennent en base64 dans le champ inlineData de la réponse. Voir la documentation Gemini TTS de Google pour l’ensemble complet des noms de voix et options de configuration.

Voir aussi

Référence API / Audio — schéma complet avec essai en direct
Formats natifs / Gemini
Avancé / Entrée audio — envoyer de l’audio VERS un modèle de chat

Images Prompts

​Forme OpenAI : /v1/audio/speech

​Gemini TTS : /v1beta/ natif

​Voir aussi

Forme OpenAI : `/v1/audio/speech`

Gemini TTS : `/v1beta/` natif

Voir aussi