前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >只需极少数据,训练一分钟,这个 AI 就能复制任何人的声音

只需极少数据,训练一分钟,这个 AI 就能复制任何人的声音

作者头像
新智元
发布2018-03-27 17:44:24
2.4K0
发布2018-03-27 17:44:24
举报
文章被收录于专栏:新智元

【新智元导读】蒙特利尔初创公司 Lyrebird 开发了一种语音合成技术,用很少的数据,训练一分钟,就能复制任何人的声音。初版展示后,已经有 10,000 人签约后续版本试用。结合某些技术,比如对视频中一个人说话的口型进行编辑的软件,“假消息”、“假新闻”或许会在 2025 年成为一个有趣但也危险的情况。

还记得《碟中谍》中汤姆·克鲁斯扮演的伊森·亨特使用当时还不可能的技术——语音合成——模仿其他人物的声音吗?

本周,蒙特利尔一家名叫 Lyrebird(注释:琴鸟,一种擅长模仿周围声音的鸟)创业公司将这转为了现实。

“我们正在开发新的语音合成技术,除了其他功能,我们可以用非常少的数据复制(copy)某个人的声音,”参与开发该项目的其中一位深度学习研究员博士 Alexandre de Brebisson 说:“我们的实验表明,一分钟的音频已经包含了很多人类声音的 DNA。我们之所以能够用极少量的数据学习新的声音,是因为我们的模型能够捕捉新声音和它已经知道的所有声音之间的相似之处。我们的模型理解(understand)使一个语音与另一个语音不同的基本变量(underlying variables)。”

Lyrebird 官网宣传:1分钟的语音录音,他们就能复制任何人的声音

说到语音合成,当然不能不提此前 DeepMind 推出的 WaveNet,新智元也对 WaveNet 做过详细报道。不过,尽管 WaveNet 效果十分强大,这种技术还是依赖了大量的语音数据。同时,根据 HackNews、Reddit 和 Twitter 等讨论,能够完全复现 WaveNet 的案例并不多,实际上是相当少——尽管 DeepMind 在论文中给出了具体细节。因此,也有人评论称,WaveNet 还是依赖大数据和大计算力的平台。

Lyrebird 由于成功实现了这种技术,de Brebisson 表示,他的团队已经通过电子邮件收到了几十种不同的应用建议,其中包括他们想到的,还有一些则是他们没有想到的应用程序。

例如,一些公司有兴趣让他们的用户选择以名人或家人的声音朗读有声读物。还有医疗公司的建议,希望使用有语音障碍人士的语音样本,让系统合成他们自己的声音。另一个有趣的想法是视频游戏公司提出的,让游戏角色用人类的声音与人类玩家对话。

潜在应用机会太多,目前已经有 10,000 人注册预定试用即将推出的测试版本。de Brebisson 继续说道:“以后我们还将增加功能,例如让公司根据自己的需求设计独特的声音,并控制这些生成的声音的情感。”

根据 Google+ 的讨论,Lyrebird 之所以能做到小数据语音实时合成,或许是将风格迁移应用到了语音数据上。当然,实际情况如何,Lyrebird 还没有公布。

虽然目前有待完善的地方还有很多,但不难想象几年后这将会如何。

结合现有的某些技术,比如对视频中一个人说话的口型进行效果逼真的编辑软件,“假消息”、“假新闻”或许会在 2025 年成为一个十分有趣但也危险重重的情况。

感兴趣可以看 Demo,模仿了包括特朗普在内很多人的声音:https://lyrebird.ai/demo

原文地址:http://www.digitaltrends.com/cool-tech/ai-lyrebird-duplicate-anyones-voice/#ixzz4fmxynOJa

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档