美韩研究者合作创建“看图定位声音来源”的模型

文章来源：企鹅号 - 论智

来源：arXiv

编译：Bing

编者按：在我们的日常生活中，画面通常都伴随着声音。那么机器可以像人一样将声音和画面匹配起来，并且确定发出声音的位置吗？来自韩国科学技术院和美国麻省理工以及加州大学的研究人员们对这一项目展开了研究，最终生成一个可以判断视频画面中声源位置的模型。以下是论智对原文的编译。

视觉作品通常都会有对应的声音，并且它们可以整合在一起。当我们看到汽车移动时，脑海中会自动想到引擎的声音。声音包含了视觉场景中丰富的信息，如图1底部的例子，引擎的声音能暗示声源在真实世界中的位置，这表明声音不仅仅是视觉信息的补充，还与视觉事件相关。

图1

人类在生活中不知不觉地接触了大量声音与视觉结合的场景，从中积累了它们之间的联系，基于此，人类可以理解某物发出的声音，并且定位到发生的位置。于是，视频和对应的音频也会同步播放出来。假设有一些视频和声音的剪辑片段，一个学习模型能否在无监督的情况下将声音和视频对应上，并且找到声音的来源呢？

模型结构

来自美国和韩国的研究人员共同分析了，让模型在无监督条件下，仅通过看图片和听音频，能否根据视觉和音频之间的信息模拟出对应的空间，也就是找到声音来源的位置。他们把模型设计成两个网络结构（声音和视觉网络），每个网络都带有形式和定位模块，可以插入进注意力机制中，如图2所示：

图2

对于声音定位，重要的是捕捉声音的观念，而不是低级信号。另外，声音信号是一个一维信号，长度也不相同。我们用卷积模块、ReLU和池化表示声音信号，然后将图层堆叠进行高水平概念的编码。

而视觉网络是由图像特征提取器和定位模块组成的。为了从视觉信号中提取出特征，我们用一个类似VGG-16的模型到conv5_3，然后已H×W的形式输入到视频框架。

给定提取出的视觉和声音信息，定位网络就能生成声音来源的位置。我们通过计算confidence score映射表示声源位置。这可以基于人类视觉系统中的注意力机制来建模，它可以根据给定的条件信息，相关明显的特征会随时间选择性地显示到前景中。

通过倾听定位

让模型从声音推断声源位置是项很难的工作，尤其是对无标记的数据。无限制的视频可能包含与画面不相关的声音，比如旁白或评论等等。另外一个挑战就是无标记的信息。从我们无监督模型的实验中我们观察到，在学习理论中总有一个典型现象——鸽子的迷信行为（pigeon's superstitions）。该现象起源于心理学家斯金纳的实验，其原理简单概括就是：在任一特定的情况下，你的行为都很可能伴随着某种结果，比如得到赞扬、报酬或解决问题后的满足感，那么随后在类似的情况下，你很可能重复这一行为；这些结果被称为“强化”。如果你的行为伴随着另一种结果，比如疼痛或尴尬，那么你在以后的相似情况下就很少会重复这种行为；这些结果被称为“惩罚”。

所以，无监督的学习模型想要彻底消除声源与位置之间的偏差是很困难的。与人类相比，机器为什么能产生错误的结果也是一个很重要的问题，其中一个解决方法就是让学习者获得先验知识。

针对这一问题，我们将一些先验知识添加到半监督的设置中。

上图展示了网络在没有先验知识的情况下标记了错误的声源位置（中），以及加入先验知识后的效果（右）。

通过在网络中加入一个监督的损失函数，我们提出了一种统一的结构，可以在无监督或半监督的框架中学习。

评估模型

为了合并我们的统一结构并评估这种方法，并解决语义不匹配的结果，我们通过标注大型数据集Flickr-SoundNet（其中包含超过200万个随机的声音与画面）后，从其中挑选了5000个画面与对应的声音，形成了一个新的声源位置数据集。据我们所知，这是第一个该类型的数据集。

该数据集是用来测试网络学习的效果，同时还能提供监督，以统一结构

最后，经过评估，我们对模型的质量和数量进行了评判：

我们将图像和对应的声音输入到无监督的网络中，它就能标记出发声位置。重要的是，我们不用标签！

同一个画面下，当网络被要求标记不同对象时，它的反应还是很精准的。

不同学习方法下网络标注的结果。可以看到由于有先验知识，监督学习的定位更精确。不过半监督学习的方法也不赖。下面的视频就更直观地表现了模型的性能。

最后总结一下，我们的研究得到了以下几点：

利用注意力机制，我们设计了一款能够定位声源位置的学习框架，它配有相应的声音和视频，利用其中的信息进行判断。只需输入声音就能得出位置。

我们提出了一个统一地端到端的深度卷积神经网络架构，它在无监督、半监督和监督学习模型上都适用。

我们收集并标注了全新的声源位置数据集，它可以提供监督式信息以及对其数量和质量的分析。

论文地址：arxiv.org/pdf/1803.03849.pdf

发表于: 2018-03-292018-03-29 22:00:24
原文链接：http://kuaibao.qq.com/s/20180329G1UIYE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

美韩研究者合作创建“看图定位声音来源”的模型

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐