谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音

【新智元导读】谷歌大脑和 DeepMind 合作发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习,为艺术家提供对音色和音乐力度变化的直观控制,可能创造出人工方法不可能实现的音乐。

Magenta 是 Google Brain 的一个致力于用机器学习创造引人入胜的音乐和艺术的项目,其目标是利用机器学习开发人类表达的新途径。它是 TensorFlow 的一部分,是一个开源机器学习库。今天,Magenta 官网博客文章最新发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,是音乐创作和音乐合成的新方法。这是 Google Brain 团队和 DeepMind 合作的研究。

与传统的合成器不同,传统的合成器通过人工设计的组件如振荡器(oscillator)和波形表(wavetable)产生音频,但 NSynth 使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习,为艺术家提供对音色和音乐的力度变化(Dynamics)的直观控制,并且能够探索使用人工设计的合成器会很困难,甚至不可能的新声音。

所学习的乐器的声音质量取决于所使用的模型和可用的训练数据,我们对此作出了一些改进:

  • 所用的音符数据集比其他公开语料库大一个数量级。
  • 创新的 WaveNet 风格的自动编码器模型,可以学习代表乐器声音空间的代码。

关于数据集和算法的详细描述可以查看论文:Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

下载地址:https://arxiv.org/abs/1704.01279

NSynth 数据集

我们希望为音乐人开发新的创作工具,并为机器学习社区提供音乐生成模型研究的新挑战,因此我们构建了 NSynth 数据集。该数据集包含从各种乐器采集的大量标记音符,注释包括各种音高和音速。包含来自~1000 乐器的 ~300k 音符,比同类公共数据集大一个数量级。你可以在这里下载 NSynth 数据集:https://magenta.tensorflow.org/datasets/nsynth

学习时间嵌入

WaveNet 是一个时间序列的表现模型,例如语音和音乐都属于时间序列。作为一个扩张卷积(dilated convolutions)的深度自回归网络,它一次建模一个声音样本,类似于非线性无限脉冲响应滤波器。由于该滤波器的上下文目前受限于数千个样本(约半秒),所以长期结构(long-term structure)需要一个引导的外部信号。前人研究中,文字转语音的情况证明了这一点,并且使用以前学习的语言嵌入能得到十分好的结果。

在这项工作中,我们通过使用 WaveNet 风格的自动编码器来学习其自身的时间嵌入,从而消除了对外部特征进行调理的需求。

我们的时间编码器看起来非常像 WaveNet,并具有相同的扩张块结构(dilation block structure)。但是,它的卷积不是因果性的,所以它看到输入块的整个上下文。在经过30层的计算之后,最后一个平均池化(average pooling)将为每 512 个样本创建一个16维的时间嵌入。因此,嵌入可以被认为是原始数据的32倍压缩。

上图是三种不同乐器的“Rainbowgrams”,是用颜色表示瞬时频率幅度的CQT谱图。垂直轴表示频率,水平轴表示时间。对于嵌入,不同颜色代表125个时间步长(32mm 每步)的16个不同的维度(dimensions)。由于8位μ律编码的压缩,存在轻微的内置失真。对多数样品来说影响很小,但是对于较低的频率来说影响更为显着。

试听:NSynth 合成的贝斯声音

(注:由于微信无法插入太多音频,请至网页试听)

音色和音乐的力度变化的隐藏空间

我们将很快发布一个交互式演示的乐器音乐。这里有一个有趣的例子,可以展示用这种技术能够做什么。下面两列是对应的音频剪辑,从左到右分别是低音到高音。(注:由于微信无法插入太多音频,请至网页试听)。可以看到,正如预期的一样,左列听起来像是两个乐器同时演奏,右列中新的音符组合了两种原始音乐的语义,创建出仍然是音乐的独特声音。

此外,所学习的嵌入仅捕获本地的上下文,就像频谱图一样,使得它们能够及时推广。尽管只用短的单音符训练,该模型可以成功地重建整个系列的音符,长度可以超过3秒。

当 WaveNet 自动编码器为原始音色添加更多的谐波(harmonics)时,它会按照基本频率上下两个音阶。这显示出它从未见过两个音符之间的过渡,因为它的最佳模拟仅是在两个音符之间滑音(glissando)。

更多信息请参考论文和网页,可以留意即将发布的版本,你也能使用这些技术制作自己的音乐。

论文下载:https://arxiv.org/abs/1704.01279

NSynth 网址:https://magenta.tensorflow.org/nsynth

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

基于客户行为事件的跨领域统一推荐模型探讨

跨领域深度学习模型一直是近几年推荐系统主要研究方向之一, 本文探讨一种个人客户画像构建的新思路, 并讨论对应的基于个人行为事件的跨领域统一推荐模型。 1、基于个...

381140
来自专栏机器之心

斯坦福李纪为博士毕业论文:让机器像人一样交流

425110
来自专栏量子位

牛津大学最新研究:给我一张照片,就能让你开口讲话

若朴 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这句话你说过没有?不承认?我给你看证据! 于是你就看到一段视频,画面中的你开口说了一段你不曾讲过的话...

43870
来自专栏新智元

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统:AI 巴别塔有望成真(附论文)

【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速...

54970
来自专栏机器之心

深度 | 谷歌和OpenAI新研究:如何使用达尔文进化论辅助设计人工智能算法?

选自QZ 作者:Dave Gershgorn 机器之心编译 参与:吴攀、黄小天、李亚洲 现代机器智能建立在模仿自然的基础之上——这一领域的主要目的是在计算机中复...

388140
来自专栏奇点大数据

最前沿:从虚拟到现实,DRL 让小狗机器人跑起来了

深度增强学习 DRL 在仿真机器人已经取得了很大的成功,同时,也在真实的机器人抓取(Robotic Manipulation)问题上有了很大的进展。然而依然会有...

7630
来自专栏机器之心

业界 | 解密谷歌Gmail新功能:结合BoW模型和RNN-LM,帮助用户快速写邮件

17620
来自专栏大数据文摘

​AI大事件 | 人工智能检测自杀倾向,三星收购AI公司

23530
来自专栏CSDN技术头条

【BDTC 2015】深度学习分论坛:DL的图像识别、语音识别应用进展

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

25990
来自专栏大数据文摘

开学了,如何用2017年最后三分之一学会深度学习?

16840

扫码关注云+社区

领取腾讯云代金券