机器能听懂人类歌声吗

音乐类竞技节目层出不穷,台上你方唱罢我登场,台下专业评审和现场观众热情高涨:这句唱得好,加分!那句跑调了,减分!歌手唱哭了,满分!此时,如果有一个毫无感情色彩的评审来打分,会不会更好?

最近的央视歌唱节目《渴望现场》中,上线了一位机器人评审“小渴”。它由中科院自动化研究所研制,来自不同行业的音乐爱好者先走进“歌咏亭”,用歌声去征服它,得到“小渴”垂青的选手才有机会走出“歌咏亭”和观众见面。机器能成为人的“知音”、听懂人类歌声吗?

对音乐进行量化评价

唱完歌让机器打个分,听起来是玩剩下的东西啊:KTV里一顿嚎,系统都会多少给出一个分数,有时还附赠欢呼声。

“我们这个可不一样,” 中科院自动化研究所研究员王金桥连忙摆手,“传统的歌曲评价软件一般只是简单地把演唱者的歌唱节奏和伴奏曲节奏做匹配对比,来进行评价,说白了就是看你有没有跑调。”

相比之下,“小渴”复杂多了。“它是第一次从音准、音域、调性、节奏、语感、乐感六个维度对演唱进行客观评断,用科技评价文艺。”王金桥说。据他介绍,这六个指标是和音乐学院教授讨论很多次的结果,兼顾了音乐欣赏的维度和量化的难度。

“在这六个指标中,前四个偏客观,训练数据足够多的情况下会比人的评价效果更好。在具体的打分过程中,机器是听一句给一句的分数,专家可能偶尔走神没听见,但机器不存在这种情况。”王金桥说。

理解音乐的本质最难

对于人工智能来说,“理解音乐的本质”更加困难,这要通过海量数据的训练来实现。

虽然不同歌手存在演唱者能力、曲风等方面的差异,但当海量音乐专家的评分数据汇总在一起时,就能基本代表当前主流的音乐评审专家对音乐的评价。“基于人工智能技术的智能音乐评判系统就是针对这些海量数据进行分析,通过大数据建模,抽象出音乐艺术的共性,进而建立起客观的音乐评价体系,从而让‘小渴’对音乐做出较为客观的理解和科学的评判。”王金桥介绍说。

他举了“小渴”评价“音准”的例子:从听众角度来说,现阶段对音准的判断更多依赖于听觉的长期专业训练,难以精确地量化。而卷积神经网络所抽取的多维语音特征具有精确量化的特征,能在很高的精度上对音准信息进行量化。在此基础上,再配合专家对歌声音准的经验打分作为监督信息,神经网络模型就能对音准信息建立准确的数学表达模型,从而进行量化的音准打分。

而听起来最缥缈的“乐感”,也有特定的数学模型支撑。“音乐作为一种艺术,需要传达某种情感,乐感就是人们了解这种感觉的感官能力。表现力是歌手演唱过程中的综合表现,目前的评判标准更多是依赖于音乐专家的权威判别。”王金桥介绍说。他解释了“小渴”理解“表现力”的过程:“我们同样采样回归模型来模拟专家对该音乐表现力的评判标准。具体来说,专家对表现力量化为1到10十个分数进行评判,我们通过卷积网络、双向长短期记忆模型,提取音乐表现力特征,该特征能对音乐在时间维度上的表现力进行充分分析,进而使得该模型能够对音乐建立特定的数学模型。”

海量数据是客观评判的基础

在学习阶段,团队给“小渴”喂了十几万首歌、扩增后也就是几百万个数据,在海量的评分数据的基础上,“小渴”才有更加科学和客观的可能。“我们找了很多音乐学院的教授给歌曲打分,发现在前四项指标上,因为指标客观所以教授的打分也很统一。但在语感和乐感这两个主观性更强的指标上,教授们打分的方差也很大。但是‘小渴’能大量听大量学习,有‘见多识广’的优势。”王金桥解释道。

到了实战现场,“现场评审听的是合成出来的声音,‘小渴’连接的则是歌手的纯人声,任何瑕疵都能被它捕捉。”王金桥说。

目前节目已经播出了两期,“评委和选手都认为结果很客观公平,把‘小渴’称作‘史上最冷静的评审’。”对于“小渴”的表现,王金桥很满意。“我们提出人工智能音乐评价系统的目的是让计算机更加有效地理解音乐。通过收集海量音乐专家的评分数据,尝试通过人工智能算法建立一种客观的音乐评价体系,建立起一座沟通音乐艺术与机器计算之间的桥梁。”王金桥说。

但也有观众表示,“小渴”更偏心和它频率接近的音频,对传统戏剧也“不大灵光”。看来音乐的大千世界纷繁复杂,“小渴”还得继续摸索。

好消息是,通过节目录制,“小渴”能采集到更多的声音案例,这会为下一步的研发储备资料。假以时日,没准儿它会从“最冷静”进化成“最厉害”的评审呢。

(原标题:机器能听懂人类歌声吗)

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180108A0FU3500?refer=cp_1026

扫码关注云+社区