Przejdź do głównej treści
Wejście audio jest obsługiwane przez multimodalne modele Gemini. Dwie ścieżki:

Ścieżka 1: input_audio w kształcie OpenAI na /v1/chat/completions

Brama tłumaczy część treści input_audio z OpenAI na inline_data Gemini automatycznie. Pole format mapuje się na właściwy typ MIME (mp3audio/mp3, wavaudio/wav itd.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Ścieżka 2: natywne /v1beta/ z inline_data

Jeśli już używasz natywnego protokołu Gemini, przekaż inline_data bezpośrednio — bez tłumaczenia.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Obsługiwane rodziny modeli

Multimodalne modele Gemini akceptują inline audio — na przykład google/gemini-2.5-flash i linia Gemini 3.x. Zachowanie odpowiada dokładnie opublikowanemu API Gemini od Google.

Limity

Inline audio ma limit rozmiaru narzucony przez upstreamowego dostawcę. Dla dłuższych plików typowym obejściem jest własne File API dostawcy (plik wgrany poza OrcaRouter, bezpośrednio do dostawcy). Sprawdź dokumentację Gemini API od Google, aby poznać aktualne limity rozmiaru i czasu trwania.

Zobacz także