Texto-para-fala - OrcaRouter

O OrcaRouter expõe dois caminhos para texto-para-fala dependendo de qual modelo TTS de provedor você quer usar.

Formato OpenAI: `/v1/audio/speech`

Use este com a família de modelos TTS da OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts e similares:

curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3

A resposta é áudio binário. O cabeçalho Content-Type informa qual formato o upstream retornou (audio/mpeg, audio/wav, audio/opus ou audio/flac).

Gemini TTS: `/v1beta/` nativo

Modelos preview de TTS do Gemini (ex.: google/gemini-2.5-flash-preview-tts) não são servidos em /v1/audio/speech — chame-os através da superfície nativa do Gemini:

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'

Os bytes de áudio voltam como base64 dentro do campo inlineData da resposta. Veja a documentação Gemini TTS do Google para o conjunto completo de nomes de voz e opções de configuração.

Veja também

Referência da API / Audio — esquema completo com teste ao vivo
Formatos nativos / Gemini
Avançado / Entrada de áudio — enviando áudio PARA um modelo de chat

Imagens Prompts

​Formato OpenAI: /v1/audio/speech

​Gemini TTS: /v1beta/ nativo

​Veja também

Formato OpenAI: `/v1/audio/speech`

Gemini TTS: `/v1beta/` nativo

Veja também