メインコンテンツへスキップ
音声入力はマルチモーダル Gemini モデルでサポートされています。2 つ のパスがあります:

パス 1: /v1/chat/completions 上の OpenAI 形式 input_audio

ゲートウェイは OpenAI の input_audio コンテンツパートを自動的に Gemini の inline_data に変換します。format フィールドは適切な MIME 型に対応付けられます (mp3audio/mp3wavaudio/wav など)。
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

パス 2: ネイティブ /v1beta/inline_data

すでに Gemini のネイティブプロトコルを使っているなら、変換なしで inline_data を直接渡せます。
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

対応モデルファミリー

Gemini マルチモーダルモデル—— google/gemini-2.5-flash や Gemini 3.x 系列など——がインライン音声を受け付けます。挙動は Google が公開する Gemini API と完全に一致します。

制限

インライン音声ペイロードのサイズは上流プロバイダの上限に従います。 長尺ファイルの場合、プロバイダの File API (OrcaRouter を介さず プロバイダ直で自分のアプリからアップロード) を使うのが典型的な 回避策です。現在のサイズと長さの上限は Google Gemini API ドキュメント を確認してください。

関連項目