AI 谱曲

更新:这篇文章其实是好几个月前就基本准备好的,但是因为默认是midi格式的音频,传不上去,最近突然脑洞大开直接google “midi to mp3 online”解决了,就现在放出来了。

提到AI(Artificial Intelligence,人工智能)和语音忍不住多说几句。大家或许都知道AI(此处一般指的是深度学习,深度学习属于AI的一种方法)应用的方面大概可以分为图像、语音、文本、推荐等,其实AI最先突破的就是在语音方面。人们对于语音识别系统的研究从上世纪中期便已开始,之后1998年李开复在CMU担任assistant professor期间,其开创性地开发出世界上第一个“非特定人连续语音识别系统”,他运用的也只是统计学习方法,这被《商业周刊》授予了当年“最重要科学创新奖”。一般而言,用于衡量语音识别系统性能的常用指标是误字率(WER),从下图可以看到,一直到2010年,采用传统方法的语音识别系统的最好结果一直稳定在23.6%,但在2011年由于深度学习的进入,语音识别的性能得到了极大的突破,在2017年已经达到了5.5%。至于大家可能平时接触的比较多的图像方面,2012年才引入深度学习,将图像top5错误率从传统方法的26%直降到16%,2015年已经突破人类5%的错误率,2017年达到了2.25%。另外,这两次突破都包含有一个人的功劳,这个神一般的人物叫做Geoffrey Hinton,嘿嘿。

由于最近一段时间在学习Andrew Ng在Coursera上的deeplearning.ai课程,作业刚好做到了和music generate相关的内容,也通过代码生成了一些自己的曲目,和大家分享在这里。

点开之前先打个预防针,质量不要有太高的期待,听个响就行了,手动尴尬。

另外曲目定位的是Jazz风格。

这里曲目质量水平不尽人意(也请大家也多担待,不过最起码也不是噪音哈哈),有很大一部分原因是因为代码并没有进行太多的优化。你肯定也猜到了,我还是从好几个demo中选出较好的,也没有选出较长的片段,因为程序还比较容易陷入某几个音的不断循环,特别是后期,术语可以叫做梯度消散吧。

但不要因此小而看AI,优秀的案例可以参考https://deepj.ai/这个网站,在GitHub上搜deepJ可以查看具体实现。在其网站首页,可以选择巴洛克、经典、罗曼、现代四种风格及其混合,而且是实时切换的。其生成的曲子普通人已经基本很难辨别是否是真人所作了。

(图片来自deepj官网)

说到这个,其实去年就有了一个想法,就是希望在今年能通过AI训练我在过去推送的200+曲目,自动生成一些相应风格的曲目,看起来距离这个目标已经近了,其实还有很长的路要走。

希望某一天能为大家带来一个惊喜,加油!

更新:最后,前段时间刚好看了《中国新歌声》,看过的相信对清华博士生宿涵一定都记得,有一集展示了他们实验室的AI作曲能力,周董还特意去了他们实验室参观体验,真的感觉超级溜。希望有一天我也可以学到皮毛吧,哈哈!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181106G207ZR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券