音声入力 - OrcaRouter

音声入力はマルチモーダル Gemini モデルでサポートされています。2 つのパスがあります:

パス 1: `/v1/chat/completions` 上の OpenAI 形式 `input_audio`

ゲートウェイは OpenAI の input_audio コンテンツパートを自動的に Gemini の inline_data に変換します。format フィールドは適切な MIME 型に対応付けられます (mp3 → audio/mp3、wav → audio/wav など)。

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

パス 2: ネイティブ `/v1beta/` の `inline_data`

すでに Gemini のネイティブプロトコルを使っているなら、変換なしで inline_data を直接渡せます。

curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

対応モデルファミリー

Gemini マルチモーダルモデル—— google/gemini-2.5-flash や Gemini 3.x 系列など——がインライン音声を受け付けます。挙動は Google が公開する Gemini API と完全に一致します。

制限

インライン音声ペイロードのサイズは上流プロバイダの上限に従います。長尺ファイルの場合、プロバイダの File API (OrcaRouter を介さずプロバイダ直で自分のアプリからアップロード) を使うのが典型的な回避策です。現在のサイズと長さの上限は Google Gemini API ドキュメントを確認してください。

​パス 1: /v1/chat/completions 上の OpenAI 形式 input_audio

​パス 2: ネイティブ /v1beta/ の inline_data

​対応モデルファミリー

​制限

​関連項目

パス 1: `/v1/chat/completions` 上の OpenAI 形式 `input_audio`

パス 2: ネイティブ `/v1beta/` の `inline_data`

対応モデルファミリー

制限

関連項目