前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音

谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音

作者头像
新智元
发布2018-03-27 16:37:54
1.6K0
发布2018-03-27 16:37:54
举报
文章被收录于专栏:新智元新智元

【新智元导读】谷歌大脑和 DeepMind 合作发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习,为艺术家提供对音色和音乐力度变化的直观控制,可能创造出人工方法不可能实现的音乐。

Magenta 是 Google Brain 的一个致力于用机器学习创造引人入胜的音乐和艺术的项目,其目标是利用机器学习开发人类表达的新途径。它是 TensorFlow 的一部分,是一个开源机器学习库。今天,Magenta 官网博客文章最新发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,是音乐创作和音乐合成的新方法。这是 Google Brain 团队和 DeepMind 合作的研究。

与传统的合成器不同,传统的合成器通过人工设计的组件如振荡器(oscillator)和波形表(wavetable)产生音频,但 NSynth 使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习,为艺术家提供对音色和音乐的力度变化(Dynamics)的直观控制,并且能够探索使用人工设计的合成器会很困难,甚至不可能的新声音。

所学习的乐器的声音质量取决于所使用的模型和可用的训练数据,我们对此作出了一些改进:

  • 所用的音符数据集比其他公开语料库大一个数量级。
  • 创新的 WaveNet 风格的自动编码器模型,可以学习代表乐器声音空间的代码。

关于数据集和算法的详细描述可以查看论文:Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

下载地址:https://arxiv.org/abs/1704.01279

NSynth 数据集

我们希望为音乐人开发新的创作工具,并为机器学习社区提供音乐生成模型研究的新挑战,因此我们构建了 NSynth 数据集。该数据集包含从各种乐器采集的大量标记音符,注释包括各种音高和音速。包含来自~1000 乐器的 ~300k 音符,比同类公共数据集大一个数量级。你可以在这里下载 NSynth 数据集:https://magenta.tensorflow.org/datasets/nsynth

学习时间嵌入

WaveNet 是一个时间序列的表现模型,例如语音和音乐都属于时间序列。作为一个扩张卷积(dilated convolutions)的深度自回归网络,它一次建模一个声音样本,类似于非线性无限脉冲响应滤波器。由于该滤波器的上下文目前受限于数千个样本(约半秒),所以长期结构(long-term structure)需要一个引导的外部信号。前人研究中,文字转语音的情况证明了这一点,并且使用以前学习的语言嵌入能得到十分好的结果。

在这项工作中,我们通过使用 WaveNet 风格的自动编码器来学习其自身的时间嵌入,从而消除了对外部特征进行调理的需求。

我们的时间编码器看起来非常像 WaveNet,并具有相同的扩张块结构(dilation block structure)。但是,它的卷积不是因果性的,所以它看到输入块的整个上下文。在经过30层的计算之后,最后一个平均池化(average pooling)将为每 512 个样本创建一个16维的时间嵌入。因此,嵌入可以被认为是原始数据的32倍压缩。

上图是三种不同乐器的“Rainbowgrams”,是用颜色表示瞬时频率幅度的CQT谱图。垂直轴表示频率,水平轴表示时间。对于嵌入,不同颜色代表125个时间步长(32mm 每步)的16个不同的维度(dimensions)。由于8位μ律编码的压缩,存在轻微的内置失真。对多数样品来说影响很小,但是对于较低的频率来说影响更为显着。

试听:NSynth 合成的贝斯声音

(注:由于微信无法插入太多音频,请至网页试听)

音色和音乐的力度变化的隐藏空间

我们将很快发布一个交互式演示的乐器音乐。这里有一个有趣的例子,可以展示用这种技术能够做什么。下面两列是对应的音频剪辑,从左到右分别是低音到高音。(注:由于微信无法插入太多音频,请至网页试听)。可以看到,正如预期的一样,左列听起来像是两个乐器同时演奏,右列中新的音符组合了两种原始音乐的语义,创建出仍然是音乐的独特声音。

此外,所学习的嵌入仅捕获本地的上下文,就像频谱图一样,使得它们能够及时推广。尽管只用短的单音符训练,该模型可以成功地重建整个系列的音符,长度可以超过3秒。

当 WaveNet 自动编码器为原始音色添加更多的谐波(harmonics)时,它会按照基本频率上下两个音阶。这显示出它从未见过两个音符之间的过渡,因为它的最佳模拟仅是在两个音符之间滑音(glissando)。

更多信息请参考论文和网页,可以留意即将发布的版本,你也能使用这些技术制作自己的音乐。

论文下载:https://arxiv.org/abs/1704.01279

NSynth 网址:https://magenta.tensorflow.org/nsynth

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档