专栏首页企鹅号快讯谷歌AI黑科技曝光:合成语音与真人声音难以区分

谷歌AI黑科技曝光:合成语音与真人声音难以区分

【腾讯科技编者按】 据国外媒体报道称,如果按照最新的标准来看,人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听,而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。 消息称,“Tacotron 2”其实已经是谷歌的第二代类似技术,它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱(通常是PDF格式),然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet(这个神经网络是从DeepMind实验室孵化而来),并将其还原为一个真实的声音。 目前,该系统只进行了英语女声的训练(如要需要它发出男性声音的话,谷歌则需要对其进行重新“培训”)。谷歌的研究人员表示,“Tacotron 2”完全可以准确发音一些非常复杂的单词和人名,并根据标点符号的不同而有所区分,甚至能够完美地讲完一段绕口令。举例来说,“Tacotron2”会默认在读到大写单词的时候加重语气,也能够处理少量的人为打字错误。 同谷歌正在研发的其他核心AI技术不同,“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术,而是将对公司其他产品起到立竿见影的作用。举例来说,谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更为真实的语音反馈。而一旦这一产品在未来迎来进一步完善后,它显然会对提升谷歌其他产品的用户体验提供更大帮助。 需要指出的是,所谓“语音合成技术”又称文本转语音(TTS)是如今很多移动产品和应用上不可或缺的技术模块,例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内,语音合成技术都是采用拼接方式,需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据,而且一旦说话人有所改变就需要重新记录和处理,所以业界一直在寻找可以实时生成语音的方式。 对此,谷歌旗下DeepMind实验室在2016年就推出了WaveNet深度神经网络,该网络在经过真实语音训练后可以根据文本直接生成音频。在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。(综合/汤姆)

本文来自企鹅号 - 腾讯科技媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌用AI合成语音:真人难以辨别瑕疵

    【中关村在线新闻资讯】12月29日消息,谷歌本月推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人...

    企鹅号小编
  • 重构出版:语音交互技术的冲击与机遇

    重构出版:语音交互技术的冲击与机遇 1 摘要:语音交互技术是人工智能技术的重要分支,包括语音识别、语音合成和语义理解三个部分。语音交互技术不仅从出版实务上重构了...

    企鹅号小编
  • 年终盘点2017年发生在上海的科技大新闻

    2017年只剩下最后几天了,回首这一年,中国科技飞速发展,国之重器引领着国家的崛起与复兴。 国产大飞机C919成功首飞 2017年5月5日,上海浦东机场,国产大...

    企鹅号小编
  • 谷歌又玩黑科技,DeepMind可以模仿人类说话

    Google的DeepMind研究实验室昨天公布了其在计算机语音合成领域的最新成果——WaveNet。该语音合成系统能够模仿人类的声音,生成的原始音频质量优于目...

    BestSDK
  • DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音

    今年8月,谷歌人工智能研究人员与ALS治疗发展研究所合作,分享了一个针对有说话障碍的人的语音到文本转录服务Euphonia项目的细节。他们表明,使用母语和非母语...

    AiTechYun
  • Python实时语音识别

    最近自己想接触下语音识别,经过一番了解和摸索,实现了对语音识别API的简单调用,正好写文章记录下。目前搜到的帖子里,有现成的调用百度语音API来对音频文件进行识...

    叫我龙总
  • 保持简短和重点来优化语音搜索

    黄伟SEO
  • Git 解决分支冲突

    在使用 git 进行版本管理的开发过程中,经常遇到上传或者拉取分支的时候冲突,在遇到冲突的时候,经常使用下面两个方式解决,虽然第一个方案看起来比较复杂,但是如果...

    zucchiniy
  • 堆栈

    堆栈(英语:stack)又称为栈或堆叠,是计算机科学中的一种抽象数据类型,只允许在有序的线性数据集合的一端(称为堆栈顶端,英语:top)进行加入数据(英语:pu...

    王小明_HIT
  • 撸了个多线程断点续传下载器,我从中学习到了这些知识

    感谢看客老爷点进来了,周末闲来无事,想起同事强哥的那句话:“你有没有玩过断点续传?” 当时转念一想,断点续传下载用的确实不少,具体细节嘛,真的没有去思考过啊。这...

    未读代码

扫码关注云+社区

领取腾讯云代金券