业界 | 百度提出神经TTS技术Deep Voice 2:支持多说话人的文本转语音

选自Baidu Blog

机器之心编译

参与:吴攀、蒋思源

今年 2 月份,百度提出了一种完全由深度神经网络构建的高质量文本转语音(TTS)系统 Deep Voice,参见机器之心报道《百度提出 Deep Voice:实时的神经语音合成系统》。近日,百度对这一系统进行了更新,提出了 Deep Voice 2,其可以使用单个模型生成不同的声音。百度在其研究博客上对这一研究进行了简单的介绍,机器之心对该博客文章和论文部分内容进行了编译介绍。有关文本转语音的更多研究,可扩展阅读机器之心文章《语音合成到了跳变点?深度神经网络变革 TTS 最新研究汇总》。

在今年 2 月,百度硅谷人工智能实验室发布了 Deep Voice 1,该系统是一个完全用深度神经网络构建的人类语音合成系统。Deep Voice 1 与其他神经文本转语音(TTS)系统不同,它不仅能实时运行,同时还可以足够快速地合成音频,因此 Deep Voice 1 可以应用于媒体和会话接口等交互性应用。通过训练能由大量数据和简单特征(而不是人工定制的数据)学习的深度神经网络,我们创建了一个极其灵活的高质量实时音频合成系统。

今天,我们很高兴发布作为 Deep Voice 下一代的系统——Deep Voice 2。在短短的三个月里,我们已经将系统从 20 小时的语音(speech)、单一声音(voice)扩展到数百小时的语音与数百种声音。Deep Voice 2 能学习数百种声音并完美地模仿它们。与传统系统不同,Deep Voice 2 不需要来自单一说话者数十小时的音频,其只需要每个说话者不到半个小时的数据就能学会数百种独特的声音,同时还能实现非常高的质量。

Deep Voice 2 通过寻找不同声音之间的共享特质(shared qualities)而学习生成语音。具体而言,每一个语音对应着单个向量,该向量大约有 50 个元素且总结了如何生成能模拟目标说话者的声音。与以前所有的 TTS 系统不同,Deep Voice 2 可以从头开始学习这些特质,无需任何标记语音特征的引导。

以下是来自我们系统的一组样本,其经过大约 100 个说话者数据的训练。每一个说话者都有其自己的说话节奏、口音、语调和发音习惯等,但我们的系统几乎都能完全模仿出来。

(注:由于微信的规则限制,机器之心无法在本文中直接呈现上述音频样本,感兴趣的读者可访问原文试听。原文地址参见文末。)

论文:Deep Voice 2:多说话人神经文本转语音(Deep Voice 2: Multi-Speaker Neural Text-to-Speech)

我们介绍了一种用于增强神经文本转语音(TTS)的技术,该技术使用了低维可训练的说话人嵌入(embedding)来从单个模型中生成不同的声音。首先,我们给出了超越两个用于单说话人神经 TTS 的当前最佳方法(Deep Voice 1 和 Tacotron)的提升。我们介绍了 Deep Voice 2,其基于与 Deep Voice 1 相似的流程,但却使用了更高性能的构建模块,并在 Deep Voice 1 的基础上表现出了显著的音频质量提升。我们通过引入一个后处理神经声码器(post-processing neural vocoder)而改进了 Tacotron,并且表现出了显著的音频质量提升。然后我们表明我们的技术可以在 Deep Voice 2 和 Tacotron 中用于多说话人语音合成,并在两个多说话人 TTS 数据集上进行了测试。我们表明单个神经 TTS 系统就能在每个说话人不到半小时数据的前提下学会数百种不同的声音,同时还能实现高质量的音频合成并近乎完美地保留说话人的身份。

图 1:推理系统框图:首先是文本-音素词典转换,其次是预测音素持续时间,第三是上采样和生成 F0,最后将 F0 和音素馈送到声音模型(vocal model)

图 2:用于多说话人的架构。(a) 分割模型 (b) 持续时间模型 (c) 频率模型

图 3:Tacotron,在 Encoder CBHG 模块中带有说话人调节(speaker conditioning),还有带有两种将频谱转换成音频的方法:Griffin-Lim 或我们的调节过说话人的 Vocal 模型

表 1:Deep Voice 1、Deep Voice 2 和 Tacotron 的平均意见分数(MOS)评估,使用了 95% 的置信区间。使用了 crowdMOS 工具包,来自这些模型的批量样本在 Mechanical Turk 上被呈现给评估者。因为这些批量样本包含来自所有模型的样本,所以该实验是这些模型之间的自然比较。

表 2:所有多说话人模型之间的 MOS 和分类准确度比较。为了得到 MOS,我们使用了 crowdMOS 工具包,细节如表 1 所示。我们还给出了在样本上的说话人鉴别模型(详情参见附录 D)的分类准确度,表明其合成的声音的区分度和真实音频一样。

图 4:学习到的说话人嵌入的主成分,这是在 VCTK 数据集上学习到,分别来自 (a) 80 层的声音模型(vocal model)和 (b) 字符到频谱模型。详见附录 C.3。

原文链接:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CVer

人脸识别最全知识图谱—清华大学出品【附下载】

自20世纪下半叶,计算机视觉技术逐渐地发展壮大。同时,伴随着数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种...

26530
来自专栏星流全栈

革命性的Deep Learning,深度学习十大应用!

21530
来自专栏计算机视觉战队

简单易懂的讲解深度学习(入门系列之二)

在前面的小节中,我们仅仅泛泛而谈了机器学习、深度学习等概念,在这一小节,我们将给出它的更加准确的形式化描述。

16840
来自专栏腾讯技术工程官方号的专栏

MIT教授Tomaso Poggio演讲与专访:智能背后的科学与工程

导读:3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席...

38470
来自专栏新智元

【深度】“信息瓶颈”理论揭示深度学习本质,Hinton说他要看1万遍

【新智元导读】在深度学习应用突飞猛进的现在,我们比任何时候都急需理论上的突破。日前,希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫...

29640
来自专栏IT技术精选文摘

深入浅出之机器学习入门

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外...

22480
来自专栏CDA数据分析师

深入浅出,一篇超棒的机器学习入门文章

? 原文链接:http://www.cnblogs.com/subconscious/p/4107357.html 在本篇文章中,我将对机器学习做个概要的介绍...

32570
来自专栏AI科技大本营的专栏

我们从1400篇机器学习文章中挑出了Top 10

在过去的一个月中,Medium上机器学习深度爱好者必关注的账号Mybridge从近 1400 篇有关机器学习的文章中挑选了最有可能帮助职业生涯发展的 10 篇推...

11610
来自专栏数据派THU

独家 | 一文读懂语音识别(附学习资源)

一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:...

72750
来自专栏AI科技评论

学界 | DeepMind解密黑箱的第一步:原来神经网络的认知原理和人类是一样的!

AI 科技评论按:因为AlphaGo而名声大噪的人工智能公司DeepMind近期发表了一篇论文介绍自己在神经网络的解释性问题上最新探索。论文被ICML接受后,D...

33970

扫码关注云+社区

领取腾讯云代金券