学界 | MIT提出像素级声源定位系统PixelPlayer:无监督地分离视频中的目标声源

选自arxiv

作者:Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick Josh McDermott、Antonio Torralba

机器之心编译

参与:刘晓坤、李泽南

相比单模态信息,多模态信息之间的关联性能带来很多有价值的额外信息。在本文中,MIT 的研究员提出了 PixelPlayer,通过在图像和声音的自然同时性提取监督信息,以无监督的方式实现了对视频的像素级声源定位。该系统有很大的潜在应用价值,例如促进声音识别,以及特定目标的音量调整、声音移除等。

  • 论文链接:https://arxiv.org/pdf/1804.03160.pdf
  • 项目地址:http://sound-of-pixels.csail.mit.edu/

这个世界上存在视觉和听觉信号的丰富资源。本文提出的视觉和听觉系统可以识别目标、分割目标覆盖的图像区域,以及分离目标产生的声音。虽然听觉场景分析 [1] 在环境声音识别 [2,3] 声源分离 [4,5,6,7,8,9] 已被广泛研究过,但实际上,图像和声音之间的自然同时性可以提供丰富的用于定位图像中的声音的监督信息 [10,11,12]。训练系统从图像或声音中识别目标通常需要大量的监督信息。然而在本文中,研究者利用声音-图像的联合学习来识别图像中生成声音的目标,并且不需要任何人工监督 [13,14,15]。

MIT 的研究表明:通过结合声音和图像信息,机器学习系统能以无监督的方式从图像或声音中识别目标、定位图像中的目标,以及分离目标产生的声音。该系统被称为 PixelPlayer。给定一个输入视频,PixelPlayer 可以联合地将配音分离为目标组件以及在图像帧上定位目标组件。PixelPlayer 允许在视频的每个像素上定位声源。

研究人员利用了图像和声音的自然同时性来学习图像声源定位模型。PixelPlayer 以声音信号为输入,并预测和视频中空间定位对应的声源信号。在训练过程中,研究者利用了自然声音的可加性来生成视频,其中构成声源是已知的。研究者通过混合声源来训练模型生成声源。

图 1:图中展示了 PixelPlayer 的一个应用案例(输出视频结果请查看补充材料)。

在这个案例中,该系统用大量的不同组合的人们弹奏乐器的视频来训练,包括独奏和二重奏。所有视频都不包含使用乐器的标签、定位,以及音乐的听觉性质。在测试时,输入(图 1 a)是多个乐器一起弹奏的视频,其中包括图像帧 I(x,y,t)和单声道音频 S(t)。PixelPlayer 将执行声音-图像源分离和定位,分割输入声音信号来评估输出声音组件 Sout(x,y,t),每个组件对应视频帧中空间定位(x,y)中的声源。图 1 c 展示了 11 个示例像素的复原声音信号。平直的蓝线对应没有生成声音的的像素。非平直的信号对应来自每个独立乐器的声音。图 1 d 展示了每个像素的评估声音能量,或声音信号的音量。注意,系统准确地检测到了声音是来自两个乐器,而不是来自背景。图 1 e 展示了像素如何根据它们的组件声音信号进行聚类。相同的颜色被被分配到生成非常相似声音的像素。

将声音整合到图像中的系统将拥有很广泛的应用,例如视频识别和操控。PixelPlayer 的分离和定位声源的能力将允许更多对目标声音的独立操作,并可以促进声音识别。该系统还可以促进视频的声音编辑,例如,特定目标的音量调整,或移除特定目标的声音等。

与本研究平行的还有近期的两篇论文 [16,17],它们也展示了结合图像和声音来将声音分解成组件的应用价值。[16] 展示了人的外观如何帮助解决语音领域中的鸡尾酒会问题。[17] 展示了一个声音-图像系统,其可以将屏幕场景产生的声音和视频中不可见的背景声音分离。

论文:The Sound of Pixels

摘要:我们提出了 PixelPlayer,该系统通过大量无标签视频数据训练,来学习定位图像中生成声音的区域,并将输入声音分割成一系列组件,以表征源于每个像素的声音。我们的方法利用了视觉和听觉模态的自然同时性来学习模型,可在不需要额外人工监督的情况下,联合解析声音和图像。在最新收集的 MUSIC 数据集上的实验结果表明,我们提出的 Mix-and-Separate 框架在图像的声音定位任务上超越了基线方法。多项定性结果表明,我们的模型可以在视野中定位声音,可应用于例如独立地调整声源的音量这样的任务。

图 2:生成像素关联声音的流程:像素级视觉特征通过对扩张 ResNet 的输出的 T 个帧进行时间最大池化得到。输入声音的频谱传递到一个 U-Net 中,其输出是 K 个音频通道。每个像素的声音由一个声音合成器网络计算得到。声音合成器网络输出一个掩码,其将被应用到输入频谱上,以选择和该像素相关的频谱组件。最后,将 inverse STFT 应用到频谱上为每个像素计算并生成最终的声音输出。

图 3:本文提出的 Mix-and-Separate 模型的训练流程,以混合两个视频为例(N=2)。

虚线框表示图 2 中详细描述的模块。来自两个视频的声音将被加到一起来生成已知构成声源信号的输入混合体。该网络被训练来根据对应的视频帧分离声源信号;它的输出是对两个声音信号的评估。注意:这里并没有假设每个视频都包含了单个声源。此外,这里没有提供任何标注。因此该系统可以学习分离独立声源,而不需要传统方法中的监督信息。

图 4:本研究使用的视频数据集的示例帧和相关声音。上行展示了独奏视频,下行展示了二重奏视频。其中声音以时频域的声谱展示,频率以对数标度表示。

图 5:数据集统计:(a)展示了视频类别的分布。其中有 565 个独奏视频和 149 个二重奏视频。(b)展示了视频时长的分布。平均时长为 2 分钟。

表 1:NMF 的和本文提出模型的不同变体的性能,在 NSDR/SIR/SAR 指标上评估。对数频率标度的 Binary masking 在所有指标上获得了最好的总体成绩。

表 4:声音分离性能的主观评估。基于 Binary masking 的模型在声音分离中超越了其它所有模型。

表 5:图像-声音关联的主观评估。基于 Binary masking 的模型的图像-声音关联性最高。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-04-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【CQA论文笔记】基于异构社交网络学习的社区问答方法,同时建模问题、回答和回答者

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码,为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入,借助了异构社交网络中...

3774
来自专栏新智元

【重磅】深度学习难以加冕算法之王 3 大根本原因

【新智元导读】New Frontiers in Computing 2016 日前在斯坦福举行, 探讨视觉、NPL、人机界面等认知和计算前沿问题。本文是参会笔记...

3878
来自专栏数值分析与有限元编程

迭代法计算结构的自振频率

迭代法用于求矩阵的最大特征值,逆迭代法用于求矩阵的最小特征值,矩阵特征值与自振频率之间的关系为 ω= √λ / (2*π) 一般来说,一个结构有多少个质量...

2615
来自专栏云计算

神经网络开始放飞自我!都是因为架构搜索新算法

雷锋网:雷锋字幕组出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 雷锋网本期论文:结合分层表示的高级架构搜索...

2768
来自专栏机器之心

观点 | 我们该如何学习机器学习中的数学

数学达到什么水平才可以开始机器学习?人们并不清楚,尤其是那些在校期间没有研究过数学或统计学的人。

701
来自专栏新智元

【NIPS 2015】深度学习未来十大趋势

本周,我在加拿大蒙特利尔参加了NIPS(Neural Information Processing Systems,神经信息处理系统)2015年论坛。这是一次令...

3669
来自专栏大数据文摘

【重磅】Facebook开源机器视觉工具,从像素点中发现规律

25516
来自专栏人工智能头条

CVPR 2018 上10篇最酷论文,圈儿里最Cool的人都在看

1582
来自专栏新智元

国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

作者:王中风 【新智元导读】 基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域大放异彩。但是,诸如 VGG、ResNet 和 Xception 等...

4496
来自专栏机器之心

百度NLP | Familia:开源的中文主题模型应用工具包

4326

扫码关注云+社区

领取腾讯云代金券