Entrada de audio - OrcaRouter

La entrada de audio está soportada por modelos multimodales Gemini. Dos caminos:

Camino 1: `input_audio` en forma OpenAI en `/v1/chat/completions`

La pasarela traduce automáticamente la parte de contenido input_audio de OpenAI al inline_data de Gemini. El campo format mapea al tipo MIME correcto (mp3 → audio/mp3, wav → audio/wav, etc.).

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Camino 2: `/v1beta/` nativo con `inline_data`

Si ya estás en el protocolo nativo de Gemini, pasa inline_data directamente — sin traducción involucrada.

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Familias de modelos soportadas

Los modelos multimodales Gemini aceptan audio inline — por ejemplo google/gemini-2.5-flash y la línea Gemini 3.x. El comportamiento coincide exactamente con la API Gemini publicada por Google.

Límites

Las cargas útiles de audio inline tienen un tope de tamaño impuesto por el proveedor upstream. Para archivos más largos, la propia File API del proveedor (subida fuera de OrcaRouter contra el proveedor directamente) es la solución típica. Consulta la documentación de la API Gemini de Google para los límites actuales de tamaño y duración.

​Camino 1: input_audio en forma OpenAI en /v1/chat/completions

​Camino 2: /v1beta/ nativo con inline_data

​Familias de modelos soportadas

​Límites

​Véase también

Camino 1: `input_audio` en forma OpenAI en `/v1/chat/completions`

Camino 2: `/v1beta/` nativo con `inline_data`

Familias de modelos soportadas

Límites

Véase también