Chuyển đến nội dung chính
Đầu vào âm thanh được hỗ trợ bởi các mô hình đa phương thức Gemini. Có hai đường:

Đường 1: input_audio định dạng OpenAI trên /v1/chat/completions

Gateway tự động dịch content part input_audio của OpenAI sang inline_data của Gemini. Trường format được ánh xạ đến loại MIME đúng (mp3audio/mp3, wavaudio/wav, v.v.).
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is happening in this audio clip?"},
        {"type": "input_audio", "input_audio": {"data": "<base64>", "format": "mp3"}}
      ]
    }]
  }'

Đường 2: /v1beta/ bản địa với inline_data

Nếu bạn đã đang dùng giao thức bản địa của Gemini, truyền trực tiếp inline_data — không có lớp dịch nào.
curl "https://api.orcarouter.ai/v1beta/models/google/gemini-2.5-flash:generateContent" \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [
        {"text": "What is happening in this audio clip?"},
        {"inline_data": {"mime_type": "audio/mp3", "data": "<base64>"}}
      ]
    }]
  }'

Các họ mô hình được hỗ trợ

Các mô hình đa phương thức Gemini chấp nhận âm thanh nội tuyến — ví dụ google/gemini-2.5-flash và dòng Gemini 3.x. Hành vi khớp chính xác với API Gemini do Google công bố.

Giới hạn

Tải trọng âm thanh nội tuyến bị giới hạn kích thước bởi nhà cung cấp upstream. Với tệp dài hơn, File API riêng của nhà cung cấp (tải lên trực tiếp đến nhà cung cấp, ngoài OrcaRouter) là cách khắc phục thông dụng. Hãy kiểm tra tài liệu API Gemini của Google để biết giới hạn kích thước và thời lượng hiện hành.

Xem thêm