动态 | 百度新论文带来「声音克隆」,一个半小时的训练数据就可以复制你的声音

AI 科技评论按:日前百度发布了一篇新论文介绍了自己在语音生成方面的最近进展。之前的 Deep Voice 系统已经可以生成高质量的语音,而现在,百度新开发的语音生成系统不仅可以把说话声音从固定的一种增加到了上千种,得以模仿数千个不同说话者的声音,而且每个说话者只需要不到一个半小时的训练数据。

这种惊人表现背后的技术理念就是从不同说话者中独立学习共通的和差异性的信息。而且在此基础上,百度的研究人员们打算更进一步,尝试只从几秒长度的短句中学习说话者的声音特点。通常我们把这类问题称为「语音克隆」。在人际交互接口的个性化订制场景中,研究者们预期语音克隆很可能会有重要作用。

为了解决语音克隆问题,在这项研究中百度的研究人员们把注意力主要放在了两种基础方法上:讲话人适配(speaker adaptation)和讲话人编码(speaker encoding),具体细节可参考上图。两种方法都可以用在带有讲话人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf )的多讲话人语音生成模型中,同时还不降低生成的语音的质量。在生成语音的自然性和相比原讲话人的相似性方面,两种方法也都只需要很少的克隆样本就可以展现良好的表现。克隆生成的样本可以参见 https://audiodemos.github.io./ 。

讲话人适配方法是使用数个克隆样本,通过基于反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。适配方法可以作用于整个模型,或者只作用于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要少得多,尽管需要更长的克隆时间,生成的语音的质量也要稍差一些。

讲话人编码方法中需要训练一个单独的模型,用它直接从要克隆的语音样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在多讲话人语音生成模型中。这个讲话人编码模型中带有时域和频域的处理模块,可以从每个音频样本中提取得到关于讲话人身份的信息,然后用注意力模块把这些信息以最优方式结合起来。讲话人编码方法的好处包括克隆速度快(只需要几秒时间)、表征每个讲话人需要的参数数目少,使得这种方法更适用于在资源有限的环境中使用。

除了在研究中准确估测讲话人嵌入外,百度的研究人员们还发现讲话人编码器可以学会有意义地把不同的讲话人映射到嵌入空间中。比如,来自不同地域、性别、口音的讲话人可以被分别聚类。通过在学到的隐含空间中进行操作,就可以把某个说话者的性别或者口音转换成图中的样子。根据研究员们的测试结果表明,对于为新的讲话人生成语音以及模仿讲话人的声音特点,他们所提的方法非常有效。

AAAI 主席 Subbarao Kambhampati 也饶有兴趣地转发了百度介绍这项成果的技术博客,希望这个技术抓紧实用起来,只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花时间讲睡前故事了,有声读书器就可以用爸爸妈妈的声音讲故事。(不过 AI 科技评论编辑也担心这大概不利于培养亲子感情吧……)

论文地址: https://arxiv.org/pdf/1802.06006.pdf

via Baidu Research,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

深度 | 华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章

AI 科技评论按:深度学习给自然语言处理带来了革命性的进步,基于深度学习的机器翻译等任务的性能有了大幅度的提升。面向未来,自然语言处理技术将如何发展和演进?在哪...

2868
来自专栏AI科技评论

学界 | OpenAI尝试打破“中文房间悖论”,让AI创造语言并自发交流

大规模机器学习技术已经在翻译、语言推理、语言理解、句子生成等领域取得巨大进展,而它的训练方式都大同小异: 给系统输入大量文本数据; 系统提取特征并提炼模式。 ...

2617
来自专栏大数据文摘

同声传译,Skype完胜99.9%地球人

1593
来自专栏Rusu的专栏

数学之美?编程之美?数学 + 编程= unbelievable 美!

本文所要介绍这个案例,整个实现过程其实并没有多么难多么复杂,但从实际问题到模型建立的思维推导过程,笔者认为还是很有意思也很有意义的,所以,也希望能够分享给大家。

2201
来自专栏机器之心

资源 | 伯克利发布BDD100K:目前最大规模开放驾驶视频数据集

2994
来自专栏CDA数据分析师

【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第五篇

大家好,我是零一,今天开始继续给大家带来数据分析基础系列教程。我的公众微信号是:start_data,欢迎大家收听。 上一篇中,我们提到波士顿矩阵,波士顿矩阵又...

1749
来自专栏月色的自留地

从锅炉工到AI专家(1)

1515
来自专栏机器之心

前沿 | BAIR提出人机合作新范式:教你如何高效安全地在月球着陆

选自BAIR 作者:Siddharth Reddy 机器之心编译 参与:Pedro、刘晓坤 人机合作可以提高很多现实高危任务的成功率和安全性,特别是对于视野受限...

2556
来自专栏计算机视觉战队

微软亚洲研究院|探索真实事物的虚拟再现

SIGGRAPH Asia 今年首次来到内地,于 12月3日在深圳国际会议中心开幕。此次,微软亚洲研究院共有七篇论文入选此次大会,研究员们也会大会现场进行演讲和...

745
来自专栏Spark学习技巧

干货 :基于用户画像的聚类分析

1675

扫码关注云+社区