首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言

欢迎各位大哥大姐来到小编的文章,希望小编辛勤的写作,能给大伙带来开心和笑容,如果真的如此请关注评论,这样小编就更加的有信心了。

你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言,莎莎拉本尊的声音似乎听起来更“电子”一些,而上面这段Rolling in the Deep听起来就好像是一个声音和莎莎拉一样的真人唱的。

并不。

这是日本语音合成技术的最新突破,只要时长2小时的某歌手的歌声数据,通过深度学习技术,就可以合成出跟这个人一模一样的歌声。

让微博上的二次元粉丝惊呼:我的老婆要重生了!

这将颠覆鬼畜圈。

以后B站UP主们就可以让丞相非常自然的唱骂王司徒了。

这个新技术能让我们欣赏更多不同的歌曲。

只要让AI听林俊杰的三张专辑,AI就可以用林俊杰的声音,唱出周杰伦、五月天、孙燕姿他们的任何一首歌。

你会完全听不出电子合成的痕迹。

我们来欣赏一下这个AI在唱日文、英文、中文歌的不同表现吧:

日文版

你可以依次听到每首歌带伴奏的完整版、清唱版和以前的技术生成的旧版本。

新技术生成的版本几乎和真人唱歌一模一样,完全没有旧版本那种浓浓的电子音。

英文版

三个版本的顺序和上面的日文版相同。

(视频地址:https://v.qq.com/x/page/j1355yon26n.html)

带上伴奏会有一丝丝违和,但单词的发音已经比旧技术的版本清晰多了。

中文版

中文歌是陈奕迅的《爱情转移》。

(视频地址:https://v.qq.com/x/page/o135563l497.html)

就是一个字一个字的蹦,可能日本人民就是这么学中文的吧。

仔细听还是可以听出它的潜质的,至少“让上次犯的错反省出梦想”最后一个字“想”,这个长音还是足够婉转的。

简直沙哑出了真人的感觉,看来AI已经了解到,这种突然变高的声音,普通人类是唱不上去的。

要想学得像,也要学人类缺点啊,至少比旧技术那种强行飙高音的假唱听着舒服多了。

这背后是谁?

成立于2009年11月,主要业务是向外界提供计算机多媒体软硬件。

这家公司也和学校有着千丝万缕的联系,Techno Speech成立的目的正是传播名古屋工业大学开发的世界上最先进的音频相关技术。

而从他实验室走出的大浦圭一郎博士正是Techno Speech的代理董事。

Techno Speech社长 大浦圭一郎

这次合成的声音用的是Techno Speech的CeVIO语音合成软件。

这家公司还开发了其他一些知名的产品。

希望AI不仅能学会唱歌,将来还能教会人类唱歌。它不同于一般的开原唱声,而是实时合成语言,目前已经支持几乎所有日文歌曲。

他们曾获得过2017年“健康王国 for Pepper”机器人应用挑战赛大奖。

可以实现机器与人合唱,还能在唱完歌后给进行评论。

Techno Speech希望用这项技术解决养老院的娱乐设施问题。

使用了什么技术?

名古屋工业大学的研究团队没有透露,但表示明年3月,德田惠一团队将会在的日本声学学会春季会议上发布研究成果。

在接受数码音乐网站DTM Station采访时,德田惠一也透露了一些细节:这个系统使用的是深度神经网络技术(DNN)。

德田惠一教授

有很多语音合成的论文记录。最近也有一篇,刚好跟DNN有关。

德田惠一称,微软的“玲奈”是从“歌词和歌声”到“歌声”,采用的是应对模拟用户的唱歌方法,而他们的这个,完全是歌词和乐谱结合来合成歌声。

据介绍这项技术未来可以运用到下面8个领域:

用于外语学习或歌唱教育为ALS(渐冻人症)或喉癌患者制作语音设备制作护理设施的数字标牌专家解读“AI合成歌声”

量子位也请教了一些业内专家大神。

他听了CeVIO的演唱版本,日文和英文上的发音还不错,比较亲切,但更关注的是训练时间。

不过觉得可能不是2小时的训练成果。一般来说,数据量越小,出高质量合成的难度越大。

小冰六代发布会上,微软发布了一个4小时训练后的模型,当时效果反响不错。

对于唱歌的评价更偏主观,不同人有不同的评价,所以评价标准并不统一。

栾剑则认为技术挑战在情感。

对情感表达的要求非常高,嗓音、气息都会影响到最后的效果,所以如何更具情感是唱歌合成的难点。”

AI语音公司思必驰去年也在央视《机智过人》节目中亮相过AI唱歌项目。

思必驰联合创始人、首席科学家俞凯当时对AI合成歌声系统有过解读。

是给定文字和乐谱,生成唱歌语音的过程。

通过乐谱给定每个“汉字”的音调和“汉字”的发音长短,汉字以不同的音调合成出来就变成了歌唱。

通过改变声调实现文字与旋律的配合,并进一步利用深度学习去学习同一说话人演唱歌曲和朗读歌词之间频谱特征的差异。

就目前的发展状况来看,AI合成歌声还有一些挑战。

曾是百度T9,因语音合成拿到百度年度最高奖,后来在滴滴任职语音团队负责人,在语音合成领域履历赫赫。

李秀林认为挑战有两点:

每个歌手都有适合自己的音域范围,如果超出范围的歌曲,合成效果可能会受到一定的影响。

训练数据的限制,会影响基于神经网络的模型效果。

有了很明显提升,机器声的感觉大幅下降,更接近真人的嗓音。

One More Thing

国内AI唱歌最知名的还是微软小冰。

已发布了十几首接近人类质量的单曲。2017年9月底,第五代小冰解锁了人工智能歌手深度学习模型,还放下狠话:

而是传统的虚拟歌手。人类们,忘了漫长辛苦的手工调教吧。

文章到这里就结束了,也不知道大家看过瘾了没,这些都是小编的一点个人见解,有哪些不太妥的地方,还请各位大哥大姐担待点,如果喜欢的话,请点击下方的关注,小编会全心全意为大家带来有趣,有料的故事,最后希望大家天天快乐。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181220A0PLBZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券