Amazing!只需轻轻一点,即可编辑视频中的乐器声音

选自MIT

作者:Adam Conner-Simons

机器之心编译

参与:路雪

MIT CSAIL 的研究者创造了一个深度学习系统,可以分离出乐器演奏视频中的乐器声音,还能改变音量。

业余和专业音乐家等可能都需要花费数小时看 YouTube 视频,来学习如何弹奏他们喜欢的歌曲的某个部分。但是如果有一种方式可以玩转视频,将你想听的乐器单独分离出来呢?

这就是 MIT 计算机科学与人工智能实验室(CSAIL)新 AI 项目的研究成果:一个观看乐器表演视频并将特定乐器的声音分离出来,使之音量更大或更轻柔的深度学习系统。

该系统是「自监督」的,不需要人类对乐器或乐器声音进行任何标注。

该 PixelPlayer 系统在超过 60 个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

例如,PixelPlayer 系统可以观看大号和小号合奏的「超级马里奥兄弟」主题曲的视频,然后分离出每个乐器的声波。

研究者称改变单个乐器音量的能力意味着,未来此类系统可帮助工程师提高以前的音乐会片段的音质。你甚至可以想象取出某个乐器的部分,然后预览把它换成其他乐器听起来会是什么样(如将木吉他换成电吉他)。

该研究团队在新论文中展示了,PixelPlayer 能够识别超过 20 种常见乐器的声音。论文一作 Hang Zhao 称如果具备更多训练数据,该系统还可以识别更多种乐器,不过它在处理乐器子类别之间的细微差别时仍可能存在问题(比如中音萨克斯和次中音萨克斯)。

之前分离声音来源的努力仅仅聚焦于音频上,这通常需要大量的人类标注。而 PixelPlayer 引入了视觉元素,研究者称这不需要人类标注,因为视觉提供了自监督。

该系统首先找出声音来源所在的图像区域,然后将输入声音分离成多个部分,表示来自每个像素的声音。

「我们期望中最好的情况是系统能够识别出哪种乐器发出了哪种声音。」CSAIL 的博士生 Zhao 说道,「我们惊讶地发现,真的可以在像素级别上对乐器进行空间定位。这种做法给了我们更多的可能性,比如只需单击视频就可以编辑单个乐器的音频。」

PixelPlayer 使用「深度学习」方法,即它使用在现有视频上训练的「神经网络」找出数据中的模式。具体来说,一个神经网络分析视频的视觉元素,一个分析音频,第三个则是「合成器」,将特定像素和特定声波结合起来以分离不同声音。

PixelPlayer 使用「自监督」深度学习方法,这意味着 MIT 团队没有确切理解该系统如何学习哪个乐器生成哪些声音。

但是,Zhao 认为,该系统似乎可以识别音乐的实际元素。例如,某些谐波频率似乎与乐器相关,如小提琴;而急促的频率则对应木琴类的乐器。

Zhao 称类似 PixelPlayer 的系统甚至可用于机器人身上,以更好地理解其他对象(如动物或车辆)制造的环境声音。

他与 MIT 电气工程和计算机科学系教授 Antonio Torralba、脑与认知科学系教授 Josh McDermott,以及助理研究员 Chuang Gan、本科生 Andrew Rouditchenko 和博士生 Carl Vondrick 一起合作了这篇论文。目前该论文已被欧洲计算机视觉大会(ECCV)接收,该会议将于今年九月在德国慕尼黑举行。

论文:The Sound of Pixels

论文链接:https://arxiv.org/pdf/1804.03160.pdf

摘要:我们提出了 PixelPlayer 系统,该系统利用大量非标注视频,学习定位生成声音的图像区域,并将输入声音分离成多个部分,代表来自每个像素的声音。我们的方法利用视觉和音频的自然同步来学习联合解析声音和图像的模型,且无需额外的人工监督。在新收集的 MUSIC 数据集上进行的实验结果证明,我们提出的 Mix-and-Separate 框架优于声源分离的多个基线模型。定性结果表明我们的模型可以学习定位视频中的声源,并能够单独调整声源的音量。

本文为机器之心编译,转载请联系本公众号获得授权。

------------------------------------------------

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180706A0M3J300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券