学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心报道

参与:邱陆陆

近日,谷歌科学家 Ye Jia 等人在 arXiv 上发布了一篇用迁移学习完成语音合成的论文。这项全新的语音合成技术能够通任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音,参考音频与最终合成的语音甚至不必是同一种语言。除了利用参考音频作为输入外,该技术还能随机生成虚拟的声线,以「不存在的说话者」的声音进行语音合成。

音频按顺序分别为参考音频 1、以参考音频 1 的声线为输入的生成句子 1(Take a look at these pages for crooked creek drive.)、生成句子 2(There are several listings for gas station.)、参考音频 2、以参考音频 2 的声线为输入的生成句子 1(同上)、生成句子 2(同上)。

点此查看更多生成音频样本。https://google.github.io/tacotron/publications/speaker_adaptation/

这篇名为「从声纹识别到多重声线语音合成的迁移学习」的论文中的系统由三个模块组成,分别是:

  • 声纹编码器
  • 基于 Tacotron2 的语音合成器
  • 基于 WaveNet 的发声器

图 1: 论文所采用的系统架构。

其中,声纹编码器用于从一段参考音频中提取固定维度的声纹特征。本文的声纹编码器采用了 3 层 LSTM 架构,提取的声纹特征为 256 维。值得一提的是,声纹编码器不但不需要训练数据包含准确的文本,甚至允许数据中包含背景噪音。声纹编码器只需要数据来自于足够多的说话者,以覆盖尽可能多样的声纹即可。

随后,提取出的声纹特征与文本特征一起作为输入进入 Tracotron2 合成器,二者按照时间步进行拼接。相比于声纹编码器,合成器对训练数据的要求要严格得多,准确的文本,足够的时长,还要保证数据中不包含噪音。

合成器生成的频谱特征进而进入基于 WaveNet 的发声器,完全独立于声纹编码器的发声器将频谱特征转换为时序波形。

在训练方面,由于三个不同模块对训练数据集的要求截然不同,本文采用了不同的数据集分开训练了三个模块。

作者分别用一个非公开语音搜索语料库(3600 万条,18000 名说话者,美国,中位数时长 3.9 秒)训练了声纹编码器,用经过处理的公开数据集 VCTK(44 小时,109 名说话者,无噪音,英音,中位数时长 1.8 秒)和 LibriSpeech(436 小时,1172 名说话者,有背景噪音,中位数时长 5 秒)各自训练了语音合成器和发声器。

实验结果主要从合成语音的自然度,以及与参考说话者的相似度这两方面来度量模型的质量。在 VCTK 数据集上,对于训练数据中未出现过的说话者,自然度 MOS 能够达到 4.20,接近于真实语音的 4.49;在 LibriSpeech 上,自然度 MOS 达到 4.12,同样接近于真实语音的 4.42。在相似度方面,VCTK 和 LibriSpeech 上的 MOS 分别达到 3.28 和 3.03,虽然与真实语音的 4.67 和 4.33 相比还有不小差距,但也已经很大程度地保留了说话者的声音信息。文章同时提供了一组结果证明,增加训练数据中所出现的说话者数量,会显著提升合成语音的自然度和相似度。

最后,当模型训练完成后,如果将声纹编码器去掉,用随机生成的特征代替声纹编码器的输出作为合成器的输入,就可以给出虚拟声线的合成语音。这种方式生成的语音声线明显有别于训练数据中的任意说话者,并且能够达到 3.65 的自然度。

  • Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
  • https://arxiv.org/abs/1806.04558

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 词嵌入2017年进展全面梳理:趋势和未来方向

36115
来自专栏向治洪

机器学习

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学...

21110
来自专栏人工智能

你知道人脸识别技术是如何实现的吗?

人脸识别,一种基于人的脸部特征信息进行身份认证的生物特征识别技术。近年来,随着欧美发达国家人脸识别技术开始进入实用阶段后,人脸识别迅速成为近年来全球的一个市场热...

3136
来自专栏AI研习社

Hinton 谷歌大脑新作:通过给个体标签建模来提高分类能力

图片来源 oregon center for nursing AI 研习社按:Geoffrey Hinton 于 2013 年加入谷歌,目前在谷歌大脑团队致力...

35811
来自专栏云时之间

深度学习与神经网络:浅谈人工神经网络跌宕起伏七十年

人工神经网络在过去的七十年的时间里数次起起伏伏,几十年间人们一直在追求机器的智能化,在近几年的研究中,随着数据量的增加和深度学习神经网络算法的研究和进步,表明了...

3725
来自专栏杨熹的专栏

深度学习相关最新图书推荐

如果您是初学者,那么您可能会将深度学习与机器学习混为一谈。实际上,机器学习包含深度学习,深度学习只是机器学习的研究领域之一。深度学习是一个交叉学科,涉及到神经网...

3629
来自专栏量子位

Hinton号召AI革命:重头再来;李飞飞等赞成:深度学习不是唯一

李林 允中 编译整理 量子位 出品 | 公众号 QbitAI ? △ Hinton等合写的反向传播论文 1986年,39岁的Geoffrey Hinton与人合...

3425
来自专栏人工智能头条

深度学习相关最新图书推荐

1594
来自专栏AI科技大本营的专栏

利用3D打印构建衍射深度神经网络,可光速执行数字运算

通过识别手写数字构建的人工神经网络一直以来都是重要的研究课题,手写数字往往因书写风格差异、上下文无关及识别准确度高等要求导致识别难度大,因此针对手写数字的研究有...

952
来自专栏人工智能

深度学习2017成果展

来源:Statsbot 编译:Bing 编者按:圣诞节前夕,数据公司Statsbot对过去一年(也许更久)深度学习领域的成果做了总结,全文共分为6部分,分别是文...

1945

扫码关注云+社区

领取腾讯云代金券