Passer au contenu principal
L’entrée audio est prise en charge par les modèles multimodaux Gemini. Deux chemins :

Chemin 1 : input_audio de forme OpenAI sur /v1/chat/completions

La passerelle traduit automatiquement la partie de contenu input_audio OpenAI vers inline_data Gemini. Le champ format mappe au bon type MIME (mp3audio/mp3, wavaudio/wav, etc.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Chemin 2 : /v1beta/ natif avec inline_data

Si vous êtes déjà sur le protocole natif Gemini, passez inline_data directement — aucune traduction impliquée.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Familles de modèles prises en charge

Les modèles multimodaux Gemini acceptent l’audio en ligne — par exemple google/gemini-2.5-flash et la ligne Gemini 3.x. Le comportement correspond exactement à l’API Gemini publiée de Google.

Limites

Les charges utiles audio en ligne sont limitées en taille par le fournisseur en amont. Pour les fichiers plus longs, la propre File API du fournisseur (téléchargée en dehors d’OrcaRouter contre le fournisseur directement) est le contournement typique. Vérifiez la documentation de l’API Gemini de Google pour les limites de taille et de durée actuelles.

Voir aussi