Saltar para o conteúdo principal
A entrada de áudio é suportada por modelos Gemini multimodais. Dois caminhos:

Caminho 1: input_audio no formato OpenAI em /v1/chat/completions

O gateway traduz a parte de conteúdo input_audio da OpenAI para o inline_data do Gemini automaticamente. O campo format mapeia para o tipo MIME correto (mp3audio/mp3, wavaudio/wav, etc.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Caminho 2: /v1beta/ nativo com inline_data

Se você já está no protocolo nativo do Gemini, passe inline_data diretamente — nenhuma tradução envolvida.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Famílias de modelos suportadas

Modelos Gemini multimodais aceitam áudio inline — por exemplo google/gemini-2.5-flash e a linha Gemini 3.x. O comportamento corresponde exatamente à API Gemini publicada pelo Google.

Limites

Cargas de áudio inline têm tamanho limitado pelo provedor upstream. Para arquivos mais longos, a própria File API do provedor (enviada fora do OrcaRouter, contra o provedor diretamente) é a solução típica. Verifique a documentação da API Gemini do Google para os limites atuais de tamanho e duração.

Veja também