动态 | 百度新论文带来「声音克隆」,一个半小时的训练数据就可以复制你的声音

AI 科技评论按:日前百度发布了一篇新论文介绍了自己在语音生成方面的最近进展。之前的 Deep Voice 系统已经可以生成高质量的语音,而现在,百度新开发的语音生成系统不仅可以把说话声音从固定的一种增加到了上千种,得以模仿数千个不同说话者的声音,而且每个说话者只需要不到一个半小时的训练数据。

这种惊人表现背后的技术理念就是从不同说话者中独立学习共通的和差异性的信息。而且在此基础上,百度的研究人员们打算更进一步,尝试只从几秒长度的短句中学习说话者的声音特点。通常我们把这类问题称为「语音克隆」。在人际交互接口的个性化订制场景中,研究者们预期语音克隆很可能会有重要作用。

为了解决语音克隆问题,在这项研究中百度的研究人员们把注意力主要放在了两种基础方法上:讲话人适配(speaker adaptation)和讲话人编码(speaker encoding),具体细节可参考上图。两种方法都可以用在带有讲话人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf )的多讲话人语音生成模型中,同时还不降低生成的语音的质量。在生成语音的自然性和相比原讲话人的相似性方面,两种方法也都只需要很少的克隆样本就可以展现良好的表现。克隆生成的样本可以参见 https://audiodemos.github.io./ 。

讲话人适配方法是使用数个克隆样本,通过基于反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。适配方法可以作用于整个模型,或者只作用于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要少得多,尽管需要更长的克隆时间,生成的语音的质量也要稍差一些。

讲话人编码方法中需要训练一个单独的模型,用它直接从要克隆的语音样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在多讲话人语音生成模型中。这个讲话人编码模型中带有时域和频域的处理模块,可以从每个音频样本中提取得到关于讲话人身份的信息,然后用注意力模块把这些信息以最优方式结合起来。讲话人编码方法的好处包括克隆速度快(只需要几秒时间)、表征每个讲话人需要的参数数目少,使得这种方法更适用于在资源有限的环境中使用。

除了在研究中准确估测讲话人嵌入外,百度的研究人员们还发现讲话人编码器可以学会有意义地把不同的讲话人映射到嵌入空间中。比如,来自不同地域、性别、口音的讲话人可以被分别聚类。通过在学到的隐含空间中进行操作,就可以把某个说话者的性别或者口音转换成图中的样子。根据研究员们的测试结果表明,对于为新的讲话人生成语音以及模仿讲话人的声音特点,他们所提的方法非常有效。

AAAI 主席 Subbarao Kambhampati 也饶有兴趣地转发了百度介绍这项成果的技术博客,希望这个技术抓紧实用起来,只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花时间讲睡前故事了,有声读书器就可以用爸爸妈妈的声音讲故事。(不过 AI 科技评论编辑也担心这大概不利于培养亲子感情吧……)

论文地址: https://arxiv.org/pdf/1802.06006.pdf

via Baidu Research,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

谷歌DeepMind最新突破:让机器像人脑一样保留学习记忆,向类人智能更进一步

1925
来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)

25811
来自专栏人工智能头条

机器学习无法精通吗?一文掌握机器学习窍门!

如果你对人工智能和机器学习的理解还不是很清楚,那么本文对你来说将会很有用。我将配合精彩的视频和文字解说来帮助你全面理解机器学习。

732
来自专栏绿巨人专栏

读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈 预备知识

1106
来自专栏人工智能

学了这么久机器学习,你真的了解它的概念吗?

引言 我们曾在之前的快讯里提到,Dataversity 最近上线了一个 What is 系列,介绍了数据科学相关的多个概念,之前我们曾介绍了大数据与数据科学(可...

1876
来自专栏灯塔大数据

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

3948
来自专栏人工智能头条

开玩乐,在移动端也能进行机器学习?做物体识别?TensorFlow on Android?

最近中美之间因为贸易战闹得很不愉快。美国非常鸡贼啊,掐死了高新科技这条路,这样一来我们依赖美国专利技术的行业就非常难受。但是,虽然美国这次做的很不地道,可也让我...

713
来自专栏CDA数据分析师

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光...

1699
来自专栏CSDN技术头条

数据可视化方法、工具、核心理念及需要警惕的深坑

大数据是当下最火爆的话题之一。随之而来的,是数据可视化技术的持续发展,它用来展现和阐释大规模的数据。但是数据可视化技术并非千篇一律。 数据可视化是展现数据的最强...

18710
来自专栏AI科技评论

产业报告 |“Deep Learning”再次无缘Gartner技术成熟度曲线

雷锋网按:Gartner技术成熟度曲线(Hyper Cycle)是Gartner著名并受到市场广泛认可的一项市场评估手段。它通过量化一个技术从诞生到进行成熟的产...

3155

扫描关注云+社区