Chuyển văn bản thành giọng nói

OrcaRouter cung cấp hai đường cho TTS tùy thuộc bạn muốn dùng mô hình TTS của nhà cung cấp nào.

Định dạng OpenAI: `/v1/audio/speech`

Dùng cho họ mô hình TTS của OpenAI — openai/tts-1, openai/tts-1-hd, openai/gpt-4o-mini-tts và tương tự:

curl https://api.orcarouter.ai/v1/audio/speech \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/tts-1",
    "input": "Hello, world!",
    "voice": "alloy"
  }' \
  --output speech.mp3

Phản hồi là âm thanh nhị phân. Header Content-Type cho biết định dạng mà upstream đã trả về (audio/mpeg, audio/wav, audio/opus, hoặc audio/flac).

Gemini TTS: `/v1beta/` bản địa

Các mô hình TTS preview của Gemini (ví dụ google/gemini-2.5-flash-preview-tts) không được phục vụ trên /v1/audio/speech — hãy gọi chúng qua bề mặt bản địa của Gemini:

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Hello, world!"}]}],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {"prebuiltVoiceConfig": {"voiceName": "Kore"}}
      }
    }
  }'

Byte âm thanh được trả về dưới dạng base64 bên trong trường inlineData của phản hồi. Xem tài liệu Gemini TTS của Google để biết toàn bộ tên giọng và tùy chọn cấu hình.

Xem thêm

Tham chiếu API / Audio — lược đồ đầy đủ kèm try-it
Định dạng gốc / Gemini
Nâng cao / Đầu vào âm thanh — gửi âm thanh ĐẾN một mô hình chat

Hình ảnh Prompts

​Định dạng OpenAI: /v1/audio/speech

​Gemini TTS: /v1beta/ bản địa

​Xem thêm

Định dạng OpenAI: `/v1/audio/speech`

Gemini TTS: `/v1beta/` bản địa

Xem thêm