谷歌大脑&DeepMind：NSynth神经音乐合成器，生成超逼真乐器声音

新智元

发布于 2018-03-27 16:37:54

1.6K0

发布于 2018-03-27 16:37:54

文章被收录于专栏：新智元

【新智元导读】谷歌大脑和 DeepMind 合作发布一个名为 NSynth （Neural Synthesizer）的神经声音合成器，使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习，为艺术家提供对音色和音乐力度变化的直观控制，可能创造出人工方法不可能实现的音乐。

Magenta 是 Google Brain 的一个致力于用机器学习创造引人入胜的音乐和艺术的项目，其目标是利用机器学习开发人类表达的新途径。它是 TensorFlow 的一部分，是一个开源机器学习库。今天，Magenta 官网博客文章最新发布一个名为 NSynth （Neural Synthesizer）的神经声音合成器，是音乐创作和音乐合成的新方法。这是 Google Brain 团队和 DeepMind 合作的研究。

与传统的合成器不同，传统的合成器通过人工设计的组件如振荡器（oscillator）和波形表（wavetable）产生音频，但 NSynth 使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习，为艺术家提供对音色和音乐的力度变化（Dynamics）的直观控制，并且能够探索使用人工设计的合成器会很困难，甚至不可能的新声音。

所学习的乐器的声音质量取决于所使用的模型和可用的训练数据，我们对此作出了一些改进：

所用的音符数据集比其他公开语料库大一个数量级。
创新的 WaveNet 风格的自动编码器模型，可以学习代表乐器声音空间的代码。

关于数据集和算法的详细描述可以查看论文：Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

下载地址：https://arxiv.org/abs/1704.01279

NSynth 数据集

我们希望为音乐人开发新的创作工具，并为机器学习社区提供音乐生成模型研究的新挑战，因此我们构建了 NSynth 数据集。该数据集包含从各种乐器采集的大量标记音符，注释包括各种音高和音速。包含来自~1000 乐器的 ~300k 音符，比同类公共数据集大一个数量级。你可以在这里下载 NSynth 数据集：https://magenta.tensorflow.org/datasets/nsynth

学习时间嵌入

WaveNet 是一个时间序列的表现模型，例如语音和音乐都属于时间序列。作为一个扩张卷积（dilated convolutions）的深度自回归网络，它一次建模一个声音样本，类似于非线性无限脉冲响应滤波器。由于该滤波器的上下文目前受限于数千个样本（约半秒），所以长期结构（long-term structure）需要一个引导的外部信号。前人研究中，文字转语音的情况证明了这一点，并且使用以前学习的语言嵌入能得到十分好的结果。

在这项工作中，我们通过使用 WaveNet 风格的自动编码器来学习其自身的时间嵌入，从而消除了对外部特征进行调理的需求。

我们的时间编码器看起来非常像 WaveNet，并具有相同的扩张块结构（dilation block structure）。但是，它的卷积不是因果性的，所以它看到输入块的整个上下文。在经过30层的计算之后，最后一个平均池化（average pooling）将为每 512 个样本创建一个16维的时间嵌入。因此，嵌入可以被认为是原始数据的32倍压缩。

上图是三种不同乐器的“Rainbowgrams”，是用颜色表示瞬时频率幅度的CQT谱图。垂直轴表示频率，水平轴表示时间。对于嵌入，不同颜色代表125个时间步长（32mm 每步）的16个不同的维度（dimensions）。由于8位μ律编码的压缩，存在轻微的内置失真。对多数样品来说影响很小，但是对于较低的频率来说影响更为显着。

试听：NSynth 合成的贝斯声音

（注：由于微信无法插入太多音频，请至网页试听）

音色和音乐的力度变化的隐藏空间

我们将很快发布一个交互式演示的乐器音乐。这里有一个有趣的例子，可以展示用这种技术能够做什么。下面两列是对应的音频剪辑，从左到右分别是低音到高音。（注：由于微信无法插入太多音频，请至网页试听）。可以看到，正如预期的一样，左列听起来像是两个乐器同时演奏，右列中新的音符组合了两种原始音乐的语义，创建出仍然是音乐的独特声音。

此外，所学习的嵌入仅捕获本地的上下文，就像频谱图一样，使得它们能够及时推广。尽管只用短的单音符训练，该模型可以成功地重建整个系列的音符，长度可以超过3秒。

当 WaveNet 自动编码器为原始音色添加更多的谐波（harmonics）时，它会按照基本频率上下两个音阶。这显示出它从未见过两个音符之间的过渡，因为它的最佳模拟仅是在两个音符之间滑音（glissando）。

更多信息请参考论文和网页，可以留意即将发布的版本，你也能使用这些技术制作自己的音乐。

论文下载：https://arxiv.org/abs/1704.01279

NSynth 网址：https://magenta.tensorflow.org/nsynth

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-04-07，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

谷歌大脑&DeepMind：NSynth神经音乐合成器，生成超逼真乐器声音

谷歌大脑&DeepMind：NSynth神经音乐合成器，生成超逼真乐器声音

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐