人工智能学会“听音辨声”

美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。

人们可以借助均衡器对歌曲旋律中的低音进行调节,但麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的科研人员带来了更好的解决方案。他们的PixelPlayer系统使用人工智能来分辨同一段音乐中不同乐器的声音,然后对不同声音进行调整,让音乐听起来更洪亮或更柔和。

如果使用音视频作为输入数据,经过充分训练的PixelPlayer系统会分离伴音音频并识别声音来源,然后计算图像中每个像素的音量并对其进行“空间定位”,即识别视频片段中生成类似声波的部分。科研人员将在2018年9月的欧洲计算机视觉会议上发表该研究成果。

“我们预期的最好情况是,可以识别出哪些乐器会发出哪类声音,”CSAIL博士赵航(音)说道:“我们对自己能够实际上在像素级别对乐器进行空间定位感到惊讶。能够做到这一点增加了很多可能性,例如只需点击视频即可编辑各个乐器的音轨音频。”

PixelPlayer的核心是基于乐器组合多模态来源(Multimodal Sources of Instrument Combinations,MUSIC)进行训练的神经网络。这是一个由来自YouTube的714个未经剪辑且未经标记的视频组成的数据集,其中总时长为60小时的500个视频被用于训练,其余视频则用于验证和测试。在训练过程中,科研人员将演奏者演奏吉他、大提琴、单簧管、长笛和其他乐器的片段馈送给算法。

这只是PixelPlayer多元机器学习框架的一部分。在经过训练的视频分析算法从视频片段的帧中提取出视觉特征后,第二个神经网络(即音频分析网络)会将声音拆分为各个部分并从中提取特征。最后,音频合成网络会使用来自这两个网络的输出将特定像素与声波关联起来。

PixelPlayer完全采用自我监督型学习方法,这意味着它不需要人类对数据进行注释,并且能够识别超过20种乐器的声音。研究人员表示,数据集越大,它能够识别的乐器就会越多,但同时也会在区分乐器子类之间的细微差异方面遇到麻烦。它还可以识别音乐元素,例如小提琴的谐波频率。

科研人员认为PixelPlayer能够帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体制造的环境音。他们表示:“我们希望我们的工作能够开辟出新的研究途径,通过视觉和听觉信号来理解声音源分离的问题。”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716G12J1300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券