Zum Hauptinhalt springen
Audio-Eingabe wird von multimodalen Gemini-Modellen unterstützt. Zwei Pfade:

Pfad 1: input_audio in OpenAI-Form auf /v1/chat/completions

Das Gateway übersetzt den OpenAI-input_audio-Inhaltsteil automatisch in das inline_data von Gemini. Das format-Feld wird auf den richtigen MIME-Typ abgebildet (mp3audio/mp3, wavaudio/wav, usw.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Pfad 2: Natives /v1beta/ mit inline_data

Wenn du bereits auf dem nativen Protokoll von Gemini bist, übergib inline_data direkt — keine Übersetzung erforderlich.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Unterstützte Modellfamilien

Multimodale Gemini-Modelle akzeptieren Inline-Audio — zum Beispiel google/gemini-2.5-flash und die Gemini-3.x-Linie. Das Verhalten entspricht genau der von Google veröffentlichten Gemini-API.

Limits

Inline-Audio-Nutzlasten sind durch den Upstream-Anbieter größenbeschränkt. Für längere Dateien ist die eigene File API des Anbieters (außerhalb von OrcaRouter direkt zum Anbieter hochgeladen) die typische Umgehungslösung. Prüfe die Gemini-API-Dokumentation von Google für aktuelle Größen- und Dauerlimits.

Siehe auch