إدخال الصوت

إدخال الصوت مدعوم بواسطة نماذج Gemini متعددة الوسائط. هناك مساران:

المسار 1: `input_audio` بشكل OpenAI على `/v1/chat/completions`

تترجم البوابة جزء محتوى input_audio الخاص بـ OpenAI إلى inline_data الخاص بـ Gemini تلقائياً. يُربط حقل format بنوع MIME الصحيح (mp3 → audio/mp3، wav → audio/wav، إلخ).

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

المسار 2: `/v1beta/` الأصلي مع `inline_data`

إذا كنت تستخدم بروتوكول Gemini الأصلي بالفعل، مرّر inline_data مباشرةً — دون أي ترجمة.

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

عائلات النماذج المدعومة

تقبل نماذج Gemini متعددة الوسائط الصوت المضمّن — على سبيل المثال google/gemini-2.5-flash وخط Gemini 3.x. يطابق السلوك تماماً واجهة Gemini المنشورة من Google.

الحدود

تخضع حمولات الصوت المضمّنة لسقف حجم يفرضه المزوّد الأعلى. للملفات الأطول، يكون الحل النموذجي عبر File API الخاصة بالمزوّد (مع الرفع خارج OrcaRouter مباشرةً إلى المزوّد). راجع وثائق Gemini API من Google لمعرفة حدود الحجم والمدة الحالية.

انظر أيضاً

الرؤية (إدخال الصور)البحث على الويب

​المسار 1: input_audio بشكل OpenAI على /v1/chat/completions

​المسار 2: /v1beta/ الأصلي مع inline_data

​عائلات النماذج المدعومة

​الحدود

​انظر أيضاً

المسار 1: `input_audio` بشكل OpenAI على `/v1/chat/completions`

المسار 2: `/v1beta/` الأصلي مع `inline_data`

عائلات النماذج المدعومة

الحدود

انظر أيضاً