【图像识别】开源 | 百度&慕尼黑工业--以图像和声音为输入，利用声音事件的知识来提高航空场景识别的性能！

CNNer

发布于 2020-09-23 16:08:33

5400

发布于 2020-09-23 16:08:33

文章被收录于专栏：CNNer

论文地址： https://arxiv.org/pdf/2005.08449.pdf

代码： https://github.com/DTaoo/Multimodal-Aerial-Scene-Recognition

数据集： https://akchen.github.io/ADVANCE-DATASET/

来源： 百度，慕尼黑工业大学，德国航空航天中心，北京交通大学

论文名称：Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

原文作者：Di Hu

内容提要

基于强大模型和高效算法的航空图像视觉信息在场景识别中取得了可观的效果，但仍受到地物、光照条件等因素的影响。受认知科学中多通道感知理论的启发，为提高航空影像的识别的性能，本文提出了一种以图像和声音为输入的新型视听航空场景识别任务。在观察到某些特定的声音事件在特定的地理位置更容易被听到的基础上，我们提出利用声音事件的知识来提高航空场景识别的性能。为此，我们构建了一个新的数据集，命名为视音频航空场景识别(ADVANCE)。在此数据集的帮助下，我们评估了三种在多模式学习框架下将声音事件知识转移到航空场景识别任务的方法，并展示了利用音频信息进行航空场景识别的好处。

主要框架及实验结果