[深度学习概念]·语音识别模型WaveNet介绍

语音识别模型WaveNet介绍

这篇文章介绍了WaveNet,一种原始音频波形的深度生成模型。我们展示了WaveNets能够生成模仿任何人类语音的语音,并且听起来比现有的最佳文本语音系统更自然,与人类表现的差距缩小了50%以上。

我们还演示了相同的网络可以用于合成其他音频信号,如音乐,并呈现自动生成的钢琴片的一些引人注目的样本。

说话的机器

允许人们与机器交谈是人机交互的长期梦想。在过去几年中,计算机理解自然语音的能力已经通过深度神经网络(例如,谷歌语音搜索)的应用而发生了革命性的变化。然而,用计算机产生语音 - 这个过程通常被称为语音合成或文本到语音(TTS) - 仍然主要基于所谓的连接TTS,其中从单个记录了一个非常大的短语音片段数据库。说话者然后重新组合以形成完整的话语。这使得难以在不记录全新数据库的情况下修改语音(例如,切换到不同的说话者,或改变他们的语音的强调或情绪)。

这导致对参数TTS的巨大需求,其中生成数据所需的所有信息都存储在模型的参数中,并且可以通过模型的输入来控制语音的内容和特征。然而,到目前为止,参数化TTS倾向于听起来不如连接。现有的参数模型通常通过将其输出传递通过称为声码器的信号处理算法来生成音频信号。

WaveNet通过直接建模音频信号的原始波形(一次一个样本)来改变这种范例。除了产生更自然的声音外,使用原始波形意味着WaveNet可以模拟任何类型的音频,包括音乐。

WaveNets

研究人员通常会避免对原始音频进行建模,因为它的速度非常快:通常为每秒16,000个样本或更多,在许多时间尺度上具有重要结构。构建一个完全自回归模型,其中每个样本的预测都受到所有先前样本的影响(在统计学中,每个预测分布都以先前的所有观察为条件),显然是一项具有挑战性的任务。

然而,我们 今年早些时候发布的PixelRNNPixelCNN模型显示,不仅可以一次生成一个像素,而且一次生成一个颜色通道,每个图像需要数千个预测,因此可以生成复杂的自然图像。这激发了我们将二维PixelNets改编为一维WaveNet。

上面的动画显示了WaveNet的结构。它是一个完全卷积的神经网络,其中卷积层具有各种扩张因子,允许其感知场随深度呈指数增长并覆盖数千次步长。

在训练时,输入序列是从人类扬声器记录的真实波形。在训练之后,我们可以对网络进行抽样以生成合成话语。在采样期间的每个步骤中,从网络计算的概率分布中抽取值。然后将该值反馈到输入中,并进行下一步骤的新预测。像这样一步一步地构建样本计算成本很高,但我们发现它对于生成复杂,逼真的音频非常重要。

改善现状

我们使用Google的一些TTS数据集训练了WaveNet,以便我们评估其性能。下图显示了WaveNets的质量,从1到5,与Google目前最好的TTS系统(参数连接)相比,以及使用Mean Opinion Scores(MOS)的人类语音 。MOS是主观声音质量测试的标准测量,并且是在人类受试者的盲测中获得的(来自100个测试句子的500多个评级)。正如我们所看到的,WaveNets将美国英语和普通话的现状和人类表现之间的差距缩小了50%以上。

对于中文和英文,Google目前的TTS系统被认为是全球最好的系统之一,因此使用单一模型进行改进是一项重大成就。

为了使用WaveNet将文本转换为语音,我们必须告诉它文本是什么。我们通过将文本转换为一系列语言和语音特征(包含有关当前音素,音节,单词等的信息)并将其输入WaveNet来实现。这意味着网络的预测不仅取决于先前的音频样本,还取决于我们希望它说出的文本。

如果我们在没有文本序列的情况下训练网络,它仍会产生语音,但现在它必须弥补说话。正如您可以从下面的示例中听到的那样,这会产生一种bab呀学语,其中真实的单词中散布着类似于单词的声音:

请注意,WaveNet有时也会产生非语音,如呼吸和嘴巴动作; 这反映了原始音频模型的更大灵活性。

正如您可以从这些样本中听到的那样,单个WaveNet能够学习许多不同声音(男性和女性)的特征。为了确保它知道哪个语音用于任何给定的话语,我们根据说话者的身份调整网络。有趣的是,我们发现许多发言者的培训使得单个演讲者的建模比单独对该演讲者进行培训更好,这表明了一种转学方式。

通过更改说话者身份,我们可以使用WaveNet在不同的声音中说同样的事情:

同样,我们可以为模型提供额外的输入,例如情感或口音,使演讲更加多样化和有趣。

制作音乐

由于WaveNets可以用来模拟任何音频信号,我们认为尝试生成音乐也很有趣。与TTS实验不同,我们没有对输入序列上的网络进行调节,告诉它要播放什么(例如乐谱); 相反,我们只是让它生成它想要的任何东西。当我们在古典钢琴音乐的数据集上进行训练时,它产生了如下的迷人样本:

WaveNets为TTS,音乐生成和音频建模提供了很多可能性。使用深度神经网络直接生成每时间步长的时间步长对16kHz音频起作用的事实确实令人惊讶,更不用说它优于最先进的TTS系统。我们很高兴看到我们接下来可以做些什么。

有关详细信息,请查看我们的论文

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券