动态 | 百度新论文带来「声音克隆」,一个半小时的训练数据就可以复制你的声音

AI 科技评论按:日前百度发布了一篇新论文介绍了自己在语音生成方面的最近进展。之前的 Deep Voice 系统已经可以生成高质量的语音,而现在,百度新开发的语音生成系统不仅可以把说话声音从固定的一种增加到了上千种,得以模仿数千个不同说话者的声音,而且每个说话者只需要不到一个半小时的训练数据。

这种惊人表现背后的技术理念就是从不同说话者中独立学习共通的和差异性的信息。而且在此基础上,百度的研究人员们打算更进一步,尝试只从几秒长度的短句中学习说话者的声音特点。通常我们把这类问题称为「语音克隆」。在人际交互接口的个性化订制场景中,研究者们预期语音克隆很可能会有重要作用。

为了解决语音克隆问题,在这项研究中百度的研究人员们把注意力主要放在了两种基础方法上:讲话人适配(speaker adaptation)和讲话人编码(speaker encoding),具体细节可参考上图。两种方法都可以用在带有讲话人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf )的多讲话人语音生成模型中,同时还不降低生成的语音的质量。在生成语音的自然性和相比原讲话人的相似性方面,两种方法也都只需要很少的克隆样本就可以展现良好的表现。克隆生成的样本可以参见 https://audiodemos.github.io./ 。

讲话人适配方法是使用数个克隆样本,通过基于反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。适配方法可以作用于整个模型,或者只作用于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要少得多,尽管需要更长的克隆时间,生成的语音的质量也要稍差一些。

讲话人编码方法中需要训练一个单独的模型,用它直接从要克隆的语音样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在多讲话人语音生成模型中。这个讲话人编码模型中带有时域和频域的处理模块,可以从每个音频样本中提取得到关于讲话人身份的信息,然后用注意力模块把这些信息以最优方式结合起来。讲话人编码方法的好处包括克隆速度快(只需要几秒时间)、表征每个讲话人需要的参数数目少,使得这种方法更适用于在资源有限的环境中使用。

除了在研究中准确估测讲话人嵌入外,百度的研究人员们还发现讲话人编码器可以学会有意义地把不同的讲话人映射到嵌入空间中。比如,来自不同地域、性别、口音的讲话人可以被分别聚类。通过在学到的隐含空间中进行操作,就可以把某个说话者的性别或者口音转换成图中的样子。根据研究员们的测试结果表明,对于为新的讲话人生成语音以及模仿讲话人的声音特点,他们所提的方法非常有效。

AAAI 主席 Subbarao Kambhampati 也饶有兴趣地转发了百度介绍这项成果的技术博客,希望这个技术抓紧实用起来,只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花时间讲睡前故事了,有声读书器就可以用爸爸妈妈的声音讲故事。(不过 AI 科技评论编辑也担心这大概不利于培养亲子感情吧……)

论文地址: https://arxiv.org/pdf/1802.06006.pdf

via Baidu Research,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

蒙特卡洛树搜索是什么?如何将其用于规划星际飞行?

选自kdnuggets 作者:Mateusz Wyszyński 机器之心编译 参与:Panda 本文解读了蒙特卡洛树搜索算法背后的概念,并用一个案例说明了欧洲...

2548
来自专栏新智元

AI摩尔定律继续超速?2028年,1美元能买200GFLOPS计算力!

【新智元导读】摩尔定律不断给人这种感觉:就是在此时此刻,我们正处于人工智能行业独一无二的大变革时期。然而,只要计算力的增长继续遵循指数级的价格-性能曲线,那么未...

1033
来自专栏ATYUN订阅号

Berkeley共享自主研究:人-机组合应用model-free RL,优化无人机实时辅助控制

想象这样一个场景,无人机驾驶员远程操控一架四旋翼飞行器,用机载摄像头进行导航和着陆。不熟练的飞行动态、陌生的地形和网络延迟都会影响这个系统,使得人很难对其进行控...

985
来自专栏xingoo, 一个梦想做发明家的程序员

白话推荐系统——从原理到实践,还有福利赠送!

之前流水账似的介绍过一篇机器学习入门的文章,大致介绍了如何学习以及机器学习的入门方法并提供了一些博主自己整理的比较有用的资源。这篇就尽量以白话解释并介绍机器学...

2036
来自专栏AI科技评论

学界丨从一个失败的强化学习训练说起:OpenAI 探讨应该如何设计奖励函数?

AI科技评论按:在当下,强化学习算法以一种惊奇、不可思议的方式进入到了我们的视野中。AI 科技评论此前也做过不少相关的覆盖和报道,而在 OpenAI 的这篇文章...

28611
来自专栏新智元

DeepMind 新算法NEC:让 AI 在学习速度上超越人类

【新智元导读】 DeepMind 研究团队的新论文Neural Episodic Control提出了一种称为NEC的新算法,使得“更广泛环境下的学习速度大幅度...

3305
来自专栏机器之心

入门 | 蒙特卡洛树搜索是什么?如何将其用于规划星际飞行?

2576
来自专栏大数据挖掘DT机器学习

做股票数据挖掘的一些日志

首先说说数据挖掘吧,接触这东西也是机缘巧合,上学期听说ZYN学姐在做科创,于是问了问具体情况,她说跟数据挖掘有关,这词我还是第一次听说,听起来很高级啊,我看了些...

4575
来自专栏AI科技评论

学界|如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。 信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了...

33014
来自专栏小小挖掘机

云计算资源配置的联合优化研究

本文介绍一篇采用随机规划模型来进行虚拟机和带宽资源配置的论文。这个成果来自于南洋理工大学计算机工程学院Chase 、Niyato两位学者的研究,该文章于2017...

3997

扫码关注云+社区