首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >让莫扎特“续写”披头士的音乐,OpenAI的新AI作曲能力强丨Demo可玩

让莫扎特“续写”披头士的音乐,OpenAI的新AI作曲能力强丨Demo可玩

作者头像
量子位
发布2019-05-13 16:45:39
7800
发布2019-05-13 16:45:39
举报
文章被收录于专栏:量子位量子位
安妮 郭一璞 假装发自 旧金山 量子位 报道 | 公众号 QbitAI

热爱打游戏的OpenAI,正式涉足音乐圈了。

它们今天发布了新AI,名叫MuseNet,利用无监督学习的方法,可以用10种不同的乐器来制作时长4分钟的音乐。

注意,不是10种不同的乐器自顾自的演奏,而是多声部合奏,放一起听起来毫无违和感。

还可以驾驭各种曲风,从莫扎特、贝多芬,到爵士乐、乡村音乐,还有披头士、Lady Gaga的曲风。

甚至,MuseNet能让莫扎特“续写”Lady Gaga的歌,让肖邦“续写”Adele的歌。

现在,你可以点开下面的音频,听着AI创作的音乐读下去了。

有Demo,不懂音乐和代码也能玩

在MuseNet的网站上,有一个Demo可以让你亲自选定音乐风格,合成你想要的曲子。

只要做三步:

1、选择你想听哪位音乐家的风格:

比如我们选莫扎特。

2、选择开始的旋律:

这里如果选NONE(START FROM SCRATCH),AI就会看心情,随便给你来一段莫扎特风格的曲子;

如果选了其他几首歌,比如Lady Gaga的Poker Face,就相当于命题作文,用莫扎特的风格续写Poker Face。

3、点下面的,让它生成音乐:

这里,黑色背景上紫色横条的图样是曲谱,箭头左边这一块谱子是Poker Face原有开头部分的音乐,注意没有词,只是前奏,大概只有一两个小节,图上一根小横条就是一个音符,位置高地表示它们的高低音。

点箭头之后,右边的这一长串才是AI生成的音乐。

点击PLAY FROM START就可以播放了,你可以听到平静的前奏进行完后,突然开始了复杂的和弦,已然从Lady Gaga的夸张曲风平滑的跳转到莫扎特古典优雅的音乐风格。

你可以点下面的视频来试听:

如果你按住曲谱拖拽,就可以看到后面因为屏幕不够宽而被隐藏的部分曲谱。

甚至有时候还会发现其他颜色的的音符,这里是加入了另外的音色。

比如这里,原有的紫色是钢琴的声音,新增的橙色,是的小提琴的声音。

一共生成了4个版本的曲子,可以点曲谱下面Completion 1 of 4左侧的左右箭头来切换。

然鹅,其实这里的曲子是OpenAI提前写好的,是打好的小抄。

如果你想要听现场freestyle,点曲谱上方的SHOW ADVANCED SETTINGS,有更多的音乐风格和开头音乐可以选择,还能设定一种或者几种乐器的音色,选定TOKENS来生成不同长度的音乐,就可以听AI现场发挥的版本了。

可以试试让披头士乐队“续写”《哈利波特》的BGM然后用钢琴弹出来,或者用贝多芬的风格续写Let It Go然后用吉他演奏。

当然,这个Demo还不太完美,比如你选择钢琴、吉他还是鼓的音色,生成的曲子听起来音色都差不多,OpenAI说这版Demo会存活到5月12号,后面会有一个迭代的版本。

逆天模型GPT-2

创作型选手MuseNet背后是一套强大的支持技术,与GTP-2通用无监督学习技术相同。

几个月前,GTP-2生成的假新闻和编造的故事甚至以假乱真,还能完成阅读理解、常识推理、文字预测、文章总结等多种任务。

作为一个没有经过任何领域数据专门训练的模型,它的表现比那些专为特定领域打造的模型还要好,一经问世就获得了Hinton等大牛的强推和关注。

GPT-2在不同语言建模任务上的测试结果

简单来说,GPT-2就是基于Transformer架构的大规模模型。

GPT-2是GPT算法“进化版”,比GPT参数扩大10倍,达到了15亿个,数据量扩大10倍,使用了包含800万个网页的数据集,共有40GB。

这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

上图左部分,是研究中使用的Transformer架构以及训练目标。右边部分,是针对特定任务进行微调。

将所有结构化输入转换为token序列,由预训练模型处理,然后经过线性+softmax层处理。

就GPT-2而言,它的训练目标很简单:根据所有给定文本中前面的单词或音符,预测下一个单词。现在,MuseNet在此基础上进行改进,也能预测音符了。

72层网络

了解了MuseNet的底层架构,现在来看它的整套音乐加工流水线。

首先,研究人员为音乐家和乐器分别创建了token,模型用这些token进行训练预测下一个音符是什么,更好地控制MuseNet生成的示例的种类。

随后,研究人员为MuseNet中嵌入了可视化信息,让模型理解所学习到音乐家与乐器的风格间互相的关联性。

看似气质毫不相同的音乐,其实也有相似的元素在里面。研究人员用t-SNE创建了2D风格信息图中,更形象地说明了这一点:

以贝多芬的风格为例,它的乐曲中包含了部分莫扎特元素、海顿元素、柴可夫斯基元素和门德尔松元素。

而莫扎特则多了克莱门蒂元素:

这样一张关系图中,AI摸清了每个音乐家风格的门道。

最后,该神经网络出马了。MuseNet计算和优化了稀疏Transformer,训练了72层的多头(核心数=24)注意神经网络,内含共有4096个token,让生成音乐的时长可达到4分钟。

就这样,一只MuseNet,就能同时驾驭多位音乐大家的风格,Lady Gaga和莫扎特的“混搭风”,来了解一下?

传送门

研究人员表示,到五月中旬,代码和预训练模型也将放出。

OpenAI博客地址(内附Demo): https://openai.com/blog/musenet/

GPT-2官方介绍: https://openai.com/blog/better-language-models/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 有Demo,不懂音乐和代码也能玩
  • 逆天模型GPT-2
  • 72层网络
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档