文章/答案/技术大牛

发布

人工智能 AI作曲

文章来源：企鹅号 - 量子星图

人工智能作曲简介——AI作曲领域3个最新研究框架

随着深度学习越来越受欢迎，创意型应用也越来越受到关注。近些年，越来越多的人开始通过深度学习来创作音乐。在这篇文章中，我们将介绍该领域已经开源的的三个重要项目，并指出这些项目仍⾯面临一些困难的挑战。如果对人工智能作曲感兴趣，可以查阅每个项目的 GitHub链接。

Magenta

https://magenta.tensorﬂow.org

Magenta是Google的开源深度学习音乐项目。其目标是使用深度学习生成动听的音乐。该项目在2016年正式开源，目前提供了包括普通RNN和多种LSTM网络的样例。

Magenta使用的网络示意

GitHub: https://github.com/tensorﬂow/magenta

Magenta几个主要特点包括

1. 提供了一套完备的音乐数据处理方案，能够处理绝大多数常见的音乐格式文件包括 Midi，MusicXml等，并提供了强大的预处理功能，能够将大量的音乐文件转变为规整的可供训练的数据，如tfrecord。

2. 文档齐全，几乎所有代码都有详细的注释。并且Magenta团队还十分活跃的维护着项目，同时社区活跃度也十分高。

3. 对于Magenta中的不同音乐生成任务，定义了十分相似而清晰的训练逻辑，学习成本低。而且对于几乎所有训练任务Magenta都提供了非常好的预训练模型，直接使用 Magenta就能够得到许多惊艳的音乐生成结果。

缺点：

1. Magenta的多轨音乐的生成结果差强人意

2. Magenta的所有音乐模型只有钢琴版本的

3. Magenta的封装十分严格，对于入门者如果想修改其功能会有很大的学习成本

Magenta的生成结果试听：

https://soundcloud.com/frank-brinkkemper-636349240/magenta-vader-jacob-generation

Bachbot

http://bachbot.com

Bachbot是剑桥大学Feynman Liang发起的使⽤用LSTM生成音乐的项目。该项目主要用了大量巴赫的咏叹调作为数据集训练，因而取名为BachBot。当时BachBot团队希望AI能够生成与巴赫原作品极为相似的机器作品，他们为此制作了一个网站让志愿者能够做多组巴赫和AI作品分辨的测试实验。

GitHub:https://github.com/feynmanliang/bachbot/

Bachbot的几个特点：

1. 这是模仿马赫音乐风格相似度最高的一个实验结果，该团队研究者提到通过他们的测试，用户几乎完全无法分辨巴赫的真实作品和机器生成的“巴赫”作品的区别。算法作曲领域内的大多数实验结果显示机器作品是很难迷惑听众的，因⽽而Bachbot的结果是十分难得的。

2. Bachbot设计了支持四条轨道的多轨音乐生成模型。当前研究者多专注于单轨音乐的生成，因为单轨旋律生成与传统的NLP领域的处理方式很相近。因而这个数量在算法作曲领域也是十分领先的。

缺点：

1. Bachbot在多轨的情况下表现较好，而且往往需要一些轨道信息作为先验知识，否则会生成大量随机的音符。

2. Bachbot的单轨音乐生成结果欠佳

Bachbot的生成结果试听：

https://soundcloud.com/bachbot/twinkle-twinkle-little-star

WaveNet

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

谷歌DeepMind的研究⼈人员开发了Wavenet。 Wavenet不同于前面提到的算法作曲，其基于卷积神经网络。他们最有希望的一个目的是通过在声音中产生更自然的流动来增强文本到语音的应用。但是它们的方法也可以应用于音乐，因为音乐的输入和输出很多时候也是由原始音频组成。

GitHub：WaveNet的代码并没得到官⽅方开源，但许多开发者基于DeepMind的文档实现了它。

例如：https://github.com/ibab/tensorﬂow-wavenet

WavNet的特点：

WavNet能够直接处理音频文件，因而有很强的拓展性，不仅是音乐，任何声音相关的任务都有其用武之地

缺点

1. 相比于算法作曲，WaveNet由于直接处理音频原始信息，计算量十分大。

2. 其结果缺乏音乐可解释性。来自Magenta项⽬目的Sageev Oore撰写了一篇博客文章，https://magenta.tensorﬂow.org/2016/09/23/learning-music-from-learned-music/

3. 他描述了可以从Wavenet的音乐输出中学到什什么。他的一个结论是，该算法可以生成没有开始的钢琴音符，使得它们在真正的钢琴上无法播放。

WaveNet生成结果试听：

https://soundcloud.com/its-only-science-discover-magazine/wavenet-artiﬁcialintelligence-playing-piano

Reference:

http://www.asimovinstitute.org/analyzing-deep-learning-tools-music/

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

http://bachbot.com

https://magenta.tensorﬂow.org

作者简介

作者OYZH，北京航空航天大学本科，清华-CMU双学位项目硕士生，研究方向为人工智能。

近些年依次在曾在微软亚洲研究院（MSRA），歌尔股份有限公司（Goertek），北京旷世科技有限公司（Face++）等公司有过工作经历，参与上亿级缺陷检测系统核心算法设计，自动化零件检测过程带来数亿收益。世界顶级人脸识别系统的开发，为安防，金融，手机，教育等行业提供解决方案。人工智能音乐方面也有世界领先的成果，让人工智能帮助人类进行高效的音乐创作。其领导的产品多次获数十次国家级，市级，校级大奖。在校获得几十项个人荣誉。

领域前瞻

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能不仅仅是一项新技术，未来的人工智能不仅是人类意识的扩展，而且是人类实践的器官，它将极大发展人类改造客观世界的能力。同时人工智能能够大大提升机器的识别，甚至表达能力，人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。其将为各个行业带来新的变革。

编辑：蜜汁酱，Echo

发表于: 2018-06-192018-06-19 20:42:03
原文链接：https://kuaibao.qq.com/s/20180619G1QDTU00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能 AI作曲

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐