前沿 | Amazing!只需轻轻一点,即可编辑视频中的乐器声音

选自MIT

作者:Adam Conner-Simons

机器之心编译

参与:路雪

MIT CSAIL 的研究者创造了一个深度学习系统,可以分离出乐器演奏视频中的乐器声音,还能改变音量。

业余和专业音乐家等可能都需要花费数小时看 YouTube 视频,来学习如何弹奏他们喜欢的歌曲的某个部分。但是如果有一种方式可以玩转视频,将你想听的乐器单独分离出来呢?

这就是 MIT 计算机科学与人工智能实验室(CSAIL)新 AI 项目的研究成果:一个观看乐器表演视频并将特定乐器的声音分离出来,使之音量更大或更轻柔的深度学习系统。

视频内容

该系统是「自监督」的,不需要人类对乐器或乐器声音进行任何标注。

该 PixelPlayer 系统在超过 60 个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

例如,PixelPlayer 系统可以观看大号和小号合奏的「超级马里奥兄弟」主题曲的视频,然后分离出每个乐器的声波。

研究者称改变单个乐器音量的能力意味着,未来此类系统可帮助工程师提高以前的音乐会片段的音质。你甚至可以想象取出某个乐器的部分,然后预览把它换成其他乐器听起来会是什么样(如将木吉他换成电吉他)。

该研究团队在新论文中展示了,PixelPlayer 能够识别超过 20 种常见乐器的声音。论文一作 Hang Zhao 称如果具备更多训练数据,该系统还可以识别更多种乐器,不过它在处理乐器子类别之间的细微差别时仍可能存在问题(比如中音萨克斯和次中音萨克斯)。

之前分离声音来源的努力仅仅聚焦于音频上,这通常需要大量的人类标注。而 PixelPlayer 引入了视觉元素,研究者称这不需要人类标注,因为视觉提供了自监督。

该系统首先找出声音来源所在的图像区域,然后将输入声音分离成多个部分,表示来自每个像素的声音。

「我们期望中最好的情况是系统能够识别出哪种乐器发出了哪种声音。」CSAIL 的博士生 Zhao 说道,「我们惊讶地发现,真的可以在像素级别上对乐器进行空间定位。这种做法给了我们更多的可能性,比如只需单击视频就可以编辑单个乐器的音频。」

PixelPlayer 使用「深度学习」方法,即它使用在现有视频上训练的「神经网络」找出数据中的模式。具体来说,一个神经网络分析视频的视觉元素,一个分析音频,第三个则是「合成器」,将特定像素和特定声波结合起来以分离不同声音。

PixelPlayer 使用「自监督」深度学习方法,这意味着 MIT 团队没有确切理解该系统如何学习哪个乐器生成哪些声音。

但是,Zhao 认为,该系统似乎可以识别音乐的实际元素。例如,某些谐波频率似乎与乐器相关,如小提琴;而急促的频率则对应木琴类的乐器。

Zhao 称类似 PixelPlayer 的系统甚至可用于机器人身上,以更好地理解其他对象(如动物或车辆)制造的环境声音。

他与 MIT 电气工程和计算机科学系教授 Antonio Torralba、脑与认知科学系教授 Josh McDermott,以及助理研究员 Chuang Gan、本科生 Andrew Rouditchenko 和博士生 Carl Vondrick 一起合作了这篇论文。目前该论文已被欧洲计算机视觉大会(ECCV)接收,该会议将于今年九月在德国慕尼黑举行。

论文:The Sound of Pixels

论文链接:https://arxiv.org/pdf/1804.03160.pdf

摘要:我们提出了 PixelPlayer 系统,该系统利用大量非标注视频,学习定位生成声音的图像区域,并将输入声音分离成多个部分,代表来自每个像素的声音。我们的方法利用视觉和音频的自然同步来学习联合解析声音和图像的模型,且无需额外的人工监督。在新收集的 MUSIC 数据集上进行的实验结果证明,我们提出的 Mix-and-Separate 框架优于声源分离的多个基线模型。定性结果表明我们的模型可以学习定位视频中的声源,并能够单独调整声源的音量。

原文链接:http://news.mit.edu/2018/ai-editing-music-videos-pixelplayer-csail-0705

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

数学专业的学生如何看待机器学习和大数据这些方向呢?

页尾更多“数学”“机器学习”“大数据”干货! 我是计算机专业的研究生。上个学期选修了数学学院的两门课:《组合最优化》和《NP复杂性与近似算法》,因此认识了一些数...

36313
来自专栏AI科技评论

干货 | 猿桌会 56 期 - 葛笑雨:应用于智能体的空间物理定性推理技术

近年来人工智能技术突飞猛进,越来越多的机器人正在走进我们的世界。与人类一样,机器人在执行日常任务时往往需要具备一定的空间物理推理能力。具备这种能力不仅使机器人可...

1412
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

1783
来自专栏钱塘大数据

【干货】不容错过的 30 个机器学习视频、教程&课程

导读:下面是 Analytics Vidhya 网站发表的文章,汇集了 2016 年机器学习经典视频、教材和课程,分类整理,初学者、进阶级还是资深研究员,都可以...

93411
来自专栏新智元

【Nature】拥抱深度学习,不要过多苛求黑箱

【新智元导读】Nature 昨日刊发新闻特写,针对AI,特别是深度学习中的黑箱问题的来龙去脉进行分析。AI 中神经网络深度学习方法的黑箱问题是科学家们一直在尝试...

4286
来自专栏AI科技评论

动态 | DeepMind 弹性权重巩固算法让 AI 拥有“记忆” ,将成机器高效学习的敲门砖

一直以来,计算机程序都是个“左耳进,右耳出”的“傻小子”,它们很快就会忘掉所做过的任务。DeepMind 决定改变传统的学习法则,让程序在学习新任务时也不忘掉旧...

3798
来自专栏新智元

2016 年不容错过的 30 个机器学习视频、教程&课程

【新智元导读】2016 年就要过去了,关于机器学习的知识储备你觉得自己做得如何?下面是 Analytics Vidhya 网站发表的文章,汇集了 2016 年机...

4515
来自专栏CDA数据分析师

你的歌单无聊吗?关于音乐和机器学习的数据分析

Spotify 是全球最大的正版流媒体音乐服务平台,深受全球用户的喜爱。那么你的歌单无聊吗?一位程序员小哥对自己的Spotify歌单进行了数据分析。 几天前,我...

2275
来自专栏AI研习社

20 道面试题助你拿下微软 AI offer

微软在业界的霸主地位人尽皆知。它引领了云计算的风潮:第一季度的财报显示,微软提供的Azure服务和Office365在线版本的收入分别飙升了90%和42%。

1774
来自专栏AI科技评论

葛笑雨:应用于智能体(Agent)的空间物理定性推理技术

近年来人工智能技术突飞猛进,越来越多的机器人正在走进我们的世界。与人类一样,机器人在执行日常任务时往往需要具备一定的空间物理推理能力。具备这种能力不仅使机器人可...

1411

扫码关注云+社区

领取腾讯云代金券