专栏首页机器之心学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

选自 kurzweilai

机器之心编译

参与:Jane W,吴攀

普林斯顿大学计算机科学家发明的技术可以像文本编辑软件对文字和 Adobe Photoshop 对图像一样对人的声音进行编辑。

正在研发中的「VoCo」软件使得添加或者替换语音中的词变得容易,仅仅通过编辑语音的文字转录(transcript)。新词将会自动合成到讲话中 —— 尽管这些词并没有出现在录音中。

该系统使用一个成熟的算法来学习和重建一段特定的声音。这将会使编辑播客和视频中的解说词更加容易,或者在将来,根据联合开发者 Adam Finkelstein 的想法(普林斯顿计算机科学教授),创建更自然的机器人拟人化声音。这将帮助因受伤或疾病失去声音的人借助机器系统重建更自然的声音。

视频内容

VoCo 的早期版本于 2016 年 11 月发布。相关的研究论文在 Transactions on Graphics 的 7 月刊发表:http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

运作机理(技术性描述)

VoCo 使得人们通过简单地替换计算机屏幕上的文字来编辑语音。该系统将新词插入到原来的语音中。

VoCo 的用户交互界面与其它语音编辑软件相似,如播客编辑软件 Audacity,它有一个声波形式的音频轨道与剪切、复制和粘贴的编辑工具。VoCo 通过音轨的文字转录放大声波,使得用户只需在转录中编辑即可替换或插入音频中没有的新词。当用户输入新词时,VoCo 同时更新音轨,通过连接解说中的语音片段来自动合成新词。

VoCo 基于优化算法,它搜索语音并选择最佳的音素(词的部分发音)组合来建立新词。为此,算法需要寻找单个音素与连接没有突然过渡的语音序列。它也需要使新词无缝衔接到原语句中。语句中不同位置的词在重音和语调的发音上也不相同,因此语境非常关键。

高级 VoCo 编辑器可以人工调整音高、振幅和片段时长。新手用户可以从预设的一组音高(底部)中选择,或者录一段自己的声音作为调整音高和时长(顶部)的参考。

关于语境,VoCo 在由转录自动合成的人工声音的音轨中寻找语句 —— 这听起来像机器发出的声音。这段语音在构建新词中起到参考作用。VoCo 在合成音轨中将这段声音与真实的人声相匹配 —— 此技术被称为「声音转换(voice conversion)」,这也是此项目的名称 VoCo 的来由。

为了应对合成词错误的情况,VoCo 向用户提供多个备用词以供选择。该系统也提供高级编辑器来调整音高和时长,以便进一步优化音质。

为了测试该系统是否为高效可靠的声音编辑器,研究人员让测试者听一组音轨,其中一些由 VoCo 合成,另一些为完全自然的人声。有超过 60% 的全自动合成的声音被误认为是真实的人声。

普林斯顿的研究人员正在调整 VoCo 的算法来使合成音更平滑的嵌入到音轨中。他们正扩展系统的能力以便生成更长的短语,甚至根据说话者的声音来生成整个语句。

制作假新闻视频?

迪士尼研究项目 FaceDirector 使得编辑视频中的面部表情和声音成为可能。

Finkelstein 建议,VoCo 的一个有用的应用场景为人工智能私人助手,例如苹果的 Siri、谷歌助手、亚马逊的 Alexa 和微软的 Cortana,它的另一个应用场景为利用老电影合成演员的声音。

但是这也会涉及到欺诈问题。它甚至可以合成逼真的假视频。我们可以编辑带有不同表情和嘴唇动作的视频剪辑(例如使用迪士尼的研究项目 FaceDirector)并与相关的假语音和背景声音(噪音和交谈声)相匹配,同时可以借助绿幕(green screen)生成假背景。

普林斯顿的研究生 Zeyu Jin(他的导师为 Finkelstein)将在 7 月份的 ACM SIGGRAPH 会上介绍该成果。该项目由 X 项目基金资助,该基金向工程师提供种子资金用于创新项目的研究。VoCo 由普林斯顿大学的研究人员与 Adobe Research 的科学家 Gautham Mysore、Stephen DiVerdi 和 Jingwan Lu 合作研究。Adobe 尚未公布 VoCo 的商业版本,或任何将 VoCo 整合到 Adobe Premiere Pro(或 FaceDirector)中的计划。

论文:VoCo:音频旁白中基于文本的插入和替换(VoCo: Text-based Insertion and Replacement in Audio Narration)

论文地址:http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

使用传统的软件编辑语音常常涉及到许多低级的人工操作。一些最先进的系统允许用户在语音的转录文本中编辑,并直接在转录文本中执行选择、剪切和粘贴操作;然后这些操作将直接自动应用于对应的声波。然而,对于基于文本的交互界面,一个显然的障碍是编辑转录文本中没有出现过的新词,例如为了强调插入新词或者替换说错的词。虽然当今有很多高质量的语音合成器,面临的挑战在于生成与语音中其它部分相匹配的新词。本论文提出了一种合成新词和短语的系统,该系统能达到新词与语境中其余语音无缝衔接的效果。我们的方法是使用文本到语音(text to speech)的合成器来泛化地生成词对应的语音,然后使用语音转换将其转换为与讲话者相似的语音。操作界面提供了一系列的编辑功能,如支持全自动合成、在一组备选语音中选择、精确控制编辑位置和音高,以及甚至通过用户自己的声音操控。本论文的研究结果表明,该方法的输出优于基线方法的输出,并且输出的语音通常难以与原始语音相区分。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

    选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心...

    机器之心
  • IBM宣称人类语音识别词错率实际应为5.1%,自家系统已突破至5.5%

    选自IBM 作者:George Saon 机器之心编译 参与:吴攀、黄小天 去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了...

    机器之心
  • 百度语音识别新算法准确率提升超30%,鸿鹄芯片彰显AI落地新打法

    昨日,百度语音能力引擎论坛在北京召开。在论坛上,百度展示了其在语音技术上的最新成果,并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外,机器之心也采访了百度语...

    机器之心
  • ​深度神经网络经典模型结构-shufflenet系列

    卷积神经网络在计算机视觉任务中表现优异,但由于嵌入式设备内存空间小,能耗要求低,因此需要使用更加高效的模型。例如,与单纯的堆叠卷积层相比GoogLeNet增加...

    小草AI
  • java之Lambda表达式

    上面的一段代码和之前的除了参数传递方式不同,其他都一样,第一段代码用匿名内部类的方式实现参数传递,第二段代码用Lambda表达式实现参数传递。

    说故事的五公子
  • 【带着canvas去流浪(10)】文字烟花

    首先动画的主框架仍然是我们反复使用的逐帧动画框架,烟花生成以后的部分也不难理解,我们之前已经对物理碰撞进行过仿真,这里实际上就是模拟了带有初速度的自由落体。所以...

    大史不说话
  • 大数据测试学习笔记之Python工具集

    这是2018年度业余主要学习和研究的方向的笔记:大数据测试 整个学习笔记以短文为主,记录一些关键信息和思考 预计每周一篇短文进行记录,可能是理论、概念、技术、工...

    苦叶子
  • 【专知-PyTorch手把手深度学习教程02】CNN快速理解与PyTorch实现: 图文+代码

    【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

    WZEARW
  • JDK8的新特性——Lambda表达式

      JDK8已经发布快4年的时间了,现在来谈它的新特性显得略微的有点“不合时宜”。尽管JDK8已不再“新”,但它的重要特性之一——Lambda表达式依然是不被大...

    用户1148394
  • 图解Java设计模式之状态模式

    请编写程序完成APP抽象活动,具体要求如下 : 1)加入每参加一个这个活动要扣除用户50积分,中奖概率是10%。 2)奖品数量固定,抽完就不能抽奖。 3)...

    海仔

扫码关注云+社区

领取腾讯云代金券