Saltar al contenido principal
OrcaRouter expone dos caminos para texto a voz según el modelo TTS del proveedor que quieras usar.

Forma OpenAI: /v1/audio/speech

Úsalo con la familia de modelos TTS de OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts, y similares:
curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3
La respuesta es audio binario. La cabecera Content-Type te dice qué formato devolvió el upstream (audio/mpeg, audio/wav, audio/opus, o audio/flac).

Gemini TTS: /v1beta/ nativo

Los modelos preview de Gemini TTS (p. ej. google/gemini-2.5-flash-preview-tts) no se sirven en /v1/audio/speech — invócalos a través de la superficie nativa de Gemini en su lugar:
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'
Los bytes de audio regresan como base64 dentro del campo inlineData de la respuesta. Consulta la documentación de Gemini TTS de Google para el conjunto completo de nombres de voz y opciones de configuración.

Véase también