Saltar al contenido principal
La entrada de audio está soportada por modelos multimodales Gemini. Dos caminos:

Camino 1: input_audio en forma OpenAI en /v1/chat/completions

La pasarela traduce automáticamente la parte de contenido input_audio de OpenAI al inline_data de Gemini. El campo format mapea al tipo MIME correcto (mp3audio/mp3, wavaudio/wav, etc.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Camino 2: /v1beta/ nativo con inline_data

Si ya estás en el protocolo nativo de Gemini, pasa inline_data directamente — sin traducción involucrada.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Familias de modelos soportadas

Los modelos multimodales Gemini aceptan audio inline — por ejemplo google/gemini-2.5-flash y la línea Gemini 3.x. El comportamiento coincide exactamente con la API Gemini publicada por Google.

Límites

Las cargas útiles de audio inline tienen un tope de tamaño impuesto por el proveedor upstream. Para archivos más largos, la propia File API del proveedor (subida fuera de OrcaRouter contra el proveedor directamente) es la solución típica. Consulta la documentación de la API Gemini de Google para los límites actuales de tamaño y duración.

Véase también