首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【图像识别】 开源 | 百度&慕尼黑工业--以图像和声音为输入,利用声音事件的知识来提高航空场景识别的性能!

【图像识别】 开源 | 百度&慕尼黑工业--以图像和声音为输入,利用声音事件的知识来提高航空场景识别的性能!

作者头像
CNNer
发布2020-09-23 16:08:33
5170
发布2020-09-23 16:08:33
举报
文章被收录于专栏:CNNerCNNerCNNer

论文地址: https://arxiv.org/pdf/2005.08449.pdf

代码: https://github.com/DTaoo/Multimodal-Aerial-Scene-Recognition

数据集: https://akchen.github.io/ADVANCE-DATASET/

来源: 百度,慕尼黑工业大学,德国航空航天中心,北京交通大学

论文名称:Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition

原文作者:Di Hu

内容提要

基于强大模型和高效算法的航空图像视觉信息在场景识别中取得了可观的效果,但仍受到地物、光照条件等因素的影响。受认知科学中多通道感知理论的启发,为提高航空影像的识别的性能,本文提出了一种以图像和声音为输入的新型视听航空场景识别任务。在观察到某些特定的声音事件在特定的地理位置更容易被听到的基础上,我们提出利用声音事件的知识来提高航空场景识别的性能。为此,我们构建了一个新的数据集,命名为视音频航空场景识别(ADVANCE)。在此数据集的帮助下,我们评估了三种在多模式学习框架下将声音事件知识转移到航空场景识别任务的方法,并展示了利用音频信息进行航空场景识别的好处。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档