首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音

DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音

作者头像
AiTechYun
发布2019-12-22 14:23:39
5400
发布2019-12-22 14:23:39
举报

编辑 | TGS 发布 | ATYUN订阅号

今年8月,谷歌人工智能研究人员与ALS治疗发展研究所合作,分享了一个针对有说话障碍的人的语音到文本转录服务Euphonia项目的细节。他们表明,使用母语和非母语英语使用者的音频数据集和帕罗特龙(一种针对有障碍人群的人工智能工具)的技术,可以大大提高语音合成和生成的质量。

最近,在一个案例研究中,谷歌研究人员和Alphabet的DeepMind团队雇佣了Euphonia,试图重现蒂姆·肖(Tim Shaw)的原始声音,他曾是NFL足球队的后卫,在2013年退休前曾效力于卡罗莱纳黑豹队、杰克逊维尔美洲虎队、芝加哥熊队和田纳西泰坦队。大约六年前,肖被诊断出患有肌萎缩性侧索硬化症,这需要他使用轮椅,在没有帮助的情况下,他无法说话、无法吞咽,甚至,无法呼吸。

在六个月的时间里,联合研究小组采用了一个可生成的人工智能模型WaveNet,来完成从肖被诊断为肌萎缩性脊髓侧索硬化症之前的声音样本中合成语音的任务——WaveNet能够模仿重音和语调。

与之前的语音生成模型相比,它生成的语音片段更有说服力。谷歌表示,基于平均意见评分,它已经将人类语音的质量差距缩小了70%——而且它的效率更高。它在谷歌的张量处理单元(TPUs)上运行时,一个1秒的语音样本只需要50毫秒就能创建出来。

WaveNet早已经被用于为谷歌的会话平台、谷歌助理生成定制语音,最近,它还被用于在谷歌云平台上为谷歌的云文本到语音服务生成数十个新的语音和语音变体——仅8月份就有38种。

微调被证明是从最少的训练数据中获得高质量合成的关键。为了重现肖的声音,谷歌和DeepMind团队采用了去年发表的一篇研究论文中提出的一种方法(“样本有效的自适应文本到语音”),该方法包括在几天内对多达数千个扬声器的大型WaveNet模型进行预训练,直到它能够产生自然发声的基本语音。在这一点上,该模型从目标说话人那里得到一小部分数据,使得其生成的语音具有该说话人的特征。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档