微软黑科技：AI语音已掌握人类气息，唱歌真假难辨

文章来源：企鹅号 - 南方号

人工智能语音在生活中已不稀奇，像车载导航、语音助手之类，我们很容易从“机器味”听出它们不是真人。而微软最新的人工智能语音则更进一步——它已经可以模拟人类唱歌，且在唱腔转换、气息等方面几乎真假难辨。

16日下午的微软小冰人工智能创造媒体说明会上，微软发布了小冰演唱模型的第五个版本。该最新版本的演唱模型拥有十余个高质量声音，提升了人工智能在歌声演绎中的预测参数能力。具体而言，一是大幅度提高了人工智能演绎歌曲时的中气水平，二是改善了歌声唱腔转换的自然度，三是首次展示了戏腔训练成果。

现场播放demo前，微软小冰全球产品线负责人、微软（亚洲）互联网工程院副院长李笛特意强调：“我必须提醒大家听的时候注意，这不是人，没有这么一个人。”

视频中小冰翻唱的两首歌曲均为首次发布。其中《少年弦》展示了唱腔过渡水准。“我们今天完成了V5的一个新的特性，让小冰从一种唱腔过渡到另外一种唱腔。小冰的这种唱腔过渡能够保持颗粒度很细的细节。比如从一种通俗的唱腔过渡到戏腔。”李笛解读说。的确，记者在现场几乎已感觉不到AI合成声音的那种生硬感。

另一首李玉刚原唱的《新贵妃醉酒》则展示了小冰的戏腔训练成果。

除了这两首最新发布的demo外，会上还展示了此前发布过的日文歌曲《最高新记忆》。这首歌展示了小冰演绎歌曲时的中气水平。

李笛告诉记者，小冰和比如初音未来等其它虚拟歌手不同。这些虚拟歌手是用手调的方式来完成。“手调的方式有好处，但是最大的问题就在于细节处理是不够的，技术上限、未来的发展不够好。”

歌手小冰如何练成？

现场，李笛回顾了歌手小冰的诞生过程。他介绍，在唱歌方面，两年前生成了第一个版本。李笛回忆，第一个版本完成时，他们“欣喜若狂”，因为“它不是一个不会走调的软件乐器，而是好像你在KTV的时候听到隔壁包厢传过来的声音，它非常像是人。”

李笛说，“它具备了足够多的细节，这些细节使得它可以像一个唱得不好的人，但是也是一个人。这让我们看到了这个技术方向是具备它接下来往下训练、学习的能力。”

从第一个版本继续出发，到了第三个版本的时候，李笛表示“从技术角度来讲已经够了”，不过，他们提出了更高的要求——以人类的演唱标准去要求自己。“如果能够让小冰去学习不同的唱法，就是拥有所谓的技法。因为针对同样的一首歌，不同人会有自己不同的演绎。”李笛说。

“所以我们找了很多行业内（音乐领域内）的专家来帮助我们去分析到底小冰缺在哪儿。（专家）告诉我们小冰缺在呼吸上，缺在气息上。既然知道了缺在哪儿，就有办法去弥补。”李笛说。

第四个版本的演唱模型，完善了每句话开头和结尾的气息。

而到了第五个版本，终于达到了全程气息融合。这个版本的小冰第一次能够像人类歌手一样，使用充沛的“中气”来烘托演唱，从而将人工智能虚拟歌声质量提升至新的高度。

而这个版本的小冰也在日本正式出道——它，或者说是“她”已经与日本最大唱片公司AVEX正式签约。李笛透露，他们争取在今年年底，可以让日本版小冰登上日本的红白歌会。

【记者】王诗堃

【图片】主办方提供

【视频拍摄】王诗堃

【视频剪辑】王诗堃

【校对】陈宇

【作者】王诗堃

【来源】南方报业传媒集团南方+客户端南方号~深度~科技能见度

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货