الانتقال إلى المحتوى الرئيسي
إدخال الصوت مدعوم بواسطة نماذج Gemini متعددة الوسائط. هناك مساران:

المسار 1: input_audio بشكل OpenAI على /v1/chat/completions

تترجم البوابة جزء محتوى input_audio الخاص بـ OpenAI إلى inline_data الخاص بـ Gemini تلقائياً. يُربط حقل format بنوع MIME الصحيح (mp3audio/mp3، wavaudio/wav، إلخ).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

المسار 2: /v1beta/ الأصلي مع inline_data

إذا كنت تستخدم بروتوكول Gemini الأصلي بالفعل، مرّر inline_data مباشرةً — دون أي ترجمة.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

عائلات النماذج المدعومة

تقبل نماذج Gemini متعددة الوسائط الصوت المضمّن — على سبيل المثال google/gemini-2.5-flash وخط Gemini 3.x. يطابق السلوك تماماً واجهة Gemini المنشورة من Google.

الحدود

تخضع حمولات الصوت المضمّنة لسقف حجم يفرضه المزوّد الأعلى. للملفات الأطول، يكون الحل النموذجي عبر File API الخاصة بالمزوّد (مع الرفع خارج OrcaRouter مباشرةً إلى المزوّد). راجع وثائق Gemini API من Google لمعرفة حدود الحجم والمدة الحالية.

انظر أيضاً