Vai al contenuto principale
L’input audio è supportato dai modelli Gemini multimodali. Due percorsi:

Percorso 1: input_audio in forma OpenAI su /v1/chat/completions

Il gateway traduce automaticamente la parte di contenuto OpenAI input_audio in inline_data di Gemini. Il campo format mappa al tipo MIME appropriato (mp3audio/mp3, wavaudio/wav, ecc.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Percorso 2: /v1beta/ nativo con inline_data

Se sei già sul protocollo nativo di Gemini, passa inline_data direttamente — nessuna traduzione coinvolta.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Famiglie di modelli supportate

I modelli Gemini multimodali accettano audio inline — ad esempio google/gemini-2.5-flash e la linea Gemini 3.x. Il comportamento corrisponde esattamente alla Gemini API pubblicata da Google.

Limiti

I payload audio inline hanno dimensione limitata dal provider upstream. Per file più lunghi, la File API del provider stesso (caricata al di fuori di OrcaRouter direttamente contro il provider) è il workaround tipico. Controlla la documentazione della Gemini API di Google per i limiti attuali di dimensione e durata.

Vedi anche