首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

语音也有DNA,智能语音合成新领地:快速语音模仿技术

近年来,一种快速语音模仿技术开始萌芽,并且在Google、Baidu等公司的相关业务领域有所建树,这也是语音合成领域一个很重要的突破点,未来可能会孵化出一片新的应用市场,应该引起行业内人士的重视。

“清明时节雨纷纷,路上行人欲断魂。借问酒家何处有?牧童遥指杏花村。”——杜牧的一首《清明》,写出了人们对逝去亲人的思恋之情。明天就是清明节了,每年此时,人们对逝去情人的思恋会更加浓烈,虽然有各种不舍和不愿,可生老病死和各种不幸的发生,又是不可改变的事实。

但是,AI技术越来越成熟,难道不能做点什么吗?小编在想,如果有一种手段能将亲人的声音特征留下来,并且借助越来越成熟的语音合成技术,通过某种方式让机器能用亲人的声音和自己聊天,是不是会让你觉得亲人并没有离去,而是在你的身边呢? 就像很多相声小品演员一样,经过长期的锻炼,可以模仿出某个人的声音,而机器应该也可以做到,不过机器的学习时间会做到更短,这正是机器学习和人工智能的优势所在。

近年,一种快速语音模仿技术开始萌芽,并且在Google、Baidu等公司的相关业务领域有所建树,这也是语音合成领域一个很重要的突破点,未来可能会孵化出一片新的应用市场,应该引起行业内人士的重视。

加拿大琴鸟(Lyrebird)公司

2017年4月,加拿大新创公司琴鸟(Lyrebird)发布了新款人工智能(AI)语音系统,其能通过分析讲话录音和对应文本以及两者之间的关联,在1分钟内模仿人类“讲话”,比如,模仿特朗普、奥巴马和希拉里三个人的声音展开一段对话。(https://lyrebird.ai/demo/ ,需要翻墙)

Lyrebird公司的AI使用了一种全新的语音合成系统,能在“倾听”过程中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿这个人声音中的情感和语调,“说”出全新的语句。Lyrebird公司创始人亚历山大·布雷比松说:“神经网络能够从声音样本中抓取关键特征,如音色、音调、音节、停顿等等,而这些关键特征足够定义一个人的声音,这跟人们根据声音判断说话者是一个道理。”布雷比松把这些关键特征比作声音的DNA。

Lyrebird公司与Google颇有渊源,它是谷歌在加拿大蒙特利尔大学建立的人工智能实验室(MILA)成立。早先Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,它与人类的发音非常相似,不仔细听可能都会骗过你的耳朵。

百度AI语音镜像

近日,一位Baidu工程师深夜进行“镜像语音”内测的小视频,在科技圈引发热议。在这段视频中,这位工程师用一台电脑启动了机器人的“语音镜像能力”,并在极短时间内构建了语音提取学习模型和语音合成应用。这段视频令人称奇的是,在与工程师经过一段时间的对话交流后,小度机器人冷不丁地以工程师的声音脱口而出:“不想聊,想吃水煮鱼吗?”,而机器人所说的“水煮鱼”梗,来自于对话开始时工程师所说的“午餐吃了水煮鱼”。 视频中显示,工程师用手机记录的测试内容,双方的对话时间仅有9分37秒。也就是说,这种内测中的语音镜像技术,能让机器设备在极短时间内完成实时语音学习和合成。

结语

快速语音模仿技术技术应用场景极广,如投入应用,将在诸多日常生活场景中,给需要关怀和陪伴的人多一份温暖。比如:偏远山区的留守儿童、异地恋的情侣、子女常年在外打拼的空巢老人……都不用再苦苦等待,随时随地都有他们熟悉的声音陪伴,有传言称,各大科技巨头均在布局该技术。

参考来源

微信群&交流合作

加入微信群:不定期分享资料,拓展行业人脉请在公众号留言:“微信号+名字+研究领域/专业/学校/公司”,我们将很快与您联系。

投稿(无稿费)、 合作请留言联系。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180405G04PEH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券