OpenAI-Form: /v1/audio/speech
Verwende dies mit der TTS-Modellfamilie von OpenAI — openai/tts-1,
openai/tts-1-hd, openai/gpt-4o-mini-tts, und ähnliche:
Content-Type-Header sagt dir,
welches Format der Upstream zurückgegeben hat (audio/mpeg,
audio/wav, audio/opus, oder audio/flac).
Gemini TTS: natives /v1beta/
Gemini-TTS-Preview-Modelle (z. B.
google/gemini-2.5-flash-preview-tts) werden nicht auf
/v1/audio/speech bedient — rufe sie stattdessen über die native
Oberfläche von Gemini auf:
inlineData-Feld der Antwort
zurück. Siehe Googles Gemini-TTS-Dokumentation für den vollständigen
Satz von Stimmnamen und Konfigurationsoptionen.
Siehe auch
- API-Referenz / Audio — vollständiges Schema mit Try-it
- Native Formate / Gemini
- Erweitert / Audio-Eingabe — Audio an ein Chat-Modell senden
