Text-to-speech - OrcaRouter

OrcaRouter udostępnia dwie ścieżki dla text-to-speech, zależnie od tego, którego modelu TTS dostawcy chcesz użyć.

Kształt OpenAI: `/v1/audio/speech`

Użyj jej z rodziną modeli TTS OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts itp.:

curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3

Odpowiedź to binarne audio. Nagłówek Content-Type mówi, jaki format zwrócił upstream (audio/mpeg, audio/wav, audio/opus lub audio/flac).

Gemini TTS: natywne `/v1beta/`

Modele preview Gemini TTS (np. google/gemini-2.5-flash-preview-tts) nie są obsługiwane na /v1/audio/speech — wywołaj je przez natywną powierzchnię Gemini:

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'

Bajty audio wracają jako base64 wewnątrz pola inlineData odpowiedzi. Zobacz dokumentację Gemini TTS od Google, aby poznać pełny zestaw nazw głosów i opcji konfiguracji.

Zobacz także

Dokumentacja API / Audio — pełny schemat z try-it
Formaty natywne / Gemini
Zaawansowane / Wejście audio — wysyłanie audio DO modelu chat

Obrazy Prompty

​Kształt OpenAI: /v1/audio/speech

​Gemini TTS: natywne /v1beta/

​Zobacz także

Kształt OpenAI: `/v1/audio/speech`

Gemini TTS: natywne `/v1beta/`

Zobacz także