人工智能学会“听音辨声”

美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。

人们可以借助均衡器对歌曲旋律中的低音进行调节,但麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的科研人员带来了更好的解决方案。他们的PixelPlayer系统使用人工智能来分辨同一段音乐中不同乐器的声音,然后对不同声音进行调整,让音乐听起来更洪亮或更柔和。

如果使用音视频作为输入数据,经过充分训练的PixelPlayer系统会分离伴音音频并识别声音来源,然后计算图像中每个像素的音量并对其进行“空间定位”,即识别视频片段中生成类似声波的部分。科研人员将在2018年9月的欧洲计算机视觉会议上发表该研究成果。

“我们预期的最好情况是,可以识别出哪些乐器会发出哪类声音,”CSAIL博士赵航(音)说道:“我们对自己能够实际上在像素级别对乐器进行空间定位感到惊讶。能够做到这一点增加了很多可能性,例如只需点击视频即可编辑各个乐器的音轨音频。”

PixelPlayer的核心是基于乐器组合多模态来源(Multimodal Sources of Instrument Combinations,MUSIC)进行训练的神经网络。这是一个由来自YouTube的714个未经剪辑且未经标记的视频组成的数据集,其中总时长为60小时的500个视频被用于训练,其余视频则用于验证和测试。在训练过程中,科研人员将演奏者演奏吉他、大提琴、单簧管、长笛和其他乐器的片段馈送给算法。

这只是PixelPlayer多元机器学习框架的一部分。在经过训练的视频分析算法从视频片段的帧中提取出视觉特征后,第二个神经网络(即音频分析网络)会将声音拆分为各个部分并从中提取特征。最后,音频合成网络会使用来自这两个网络的输出将特定像素与声波关联起来。

PixelPlayer完全采用自我监督型学习方法,这意味着它不需要人类对数据进行注释,并且能够识别超过20种乐器的声音。研究人员表示,数据集越大,它能够识别的乐器就会越多,但同时也会在区分乐器子类之间的细微差异方面遇到麻烦。它还可以识别音乐元素,例如小提琴的谐波频率。

科研人员认为PixelPlayer能够帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体制造的环境音。他们表示:“我们希望我们的工作能够开辟出新的研究途径,通过视觉和听觉信号来理解声音源分离的问题。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2018-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】深入浅出——谈数据挖掘

本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应用的领域都有着非常清晰的论述。作者在此篇文章中认为数据挖掘最重要的要素是分...

28840
来自专栏机器人网

AI领域学习路线图:普通程序员如何转向AI方向

  眼下,人工智能已经成为越来越火的一个方向。普通程序员,如何转向人工智能方向,是知乎上的一个问题。本文是我对此问题的一个回答的归档版。相比原回答有所内容增加。

21430
来自专栏大数据文摘

不学好数学也想当数据科学家?不存在的

16830
来自专栏新智元

DeepMind用深度学习模仿大脑推理,预测编码智能推进一大步!

【新智元导读】预测编码理论认为,大脑的感知、运动控制、记忆及其他高级功能,取决于真实经历和大脑对未来的预测之间的差异。DeepMind新推出的“生成查询网络”模...

11310
来自专栏人人都是极客

普通程序员如何转向AI方向

眼下,人工智能已经成为越来越火的一个方向。普通程序员,如何转向人工智能方向,是知乎上的一个问题。本文是我对此问题的一个回答的归档版。相比原回答(https://...

42090
来自专栏AI科技评论

动态 |《机器学习》作者Tom Mitchell:人工智能如何向人类大脑学习?

AI科技评论按:4月27日,GMIC 2017(全球移动互联网大会)北京站开幕。卡耐基梅隆大学计算机科学学院机器学习系主任Tom Mitchell发表了“突破人...

36550
来自专栏腾讯音视频实验室

AI黑科技:超低码率看实时高清视频

怎么样才能不增加上行码率的情况下,让用户在接收端可以看到更高清的实时视频呢?

5.1K90
来自专栏AI科技大本营的专栏

传统程序员转型AI做错了吗?

近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是 Goog...

16140
来自专栏数据派THU

一文总览数据科学全景:定律、算法、问题类型...

作者:Pradeep Menon 翻译:王瑞玺 校对:梁傅淇 本文约3000字,建议阅读时间8分钟。 Pradeep Menon是一位在大数据,数据科学,数据架...

19970
来自专栏数据的力量

深入浅出谈数据挖掘

18980

扫码关注云+社区

领取腾讯云代金券