前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2019|DFAF模型应用于VQA,VQA 2.0数据集达到了SOTA效果

CVPR2019|DFAF模型应用于VQA,VQA 2.0数据集达到了SOTA效果

作者头像
CNNer
发布2020-07-09 12:03:33
1.1K0
发布2020-07-09 12:03:33
举报
文章被收录于专栏:CNNerCNNer

论文地址: http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_Dynamic_Fusion_With_Intra-_and_Inter-Modality_Attention_Flow_for_Visual_CVPR_2019_paper.pdf 代码:…… 来源:香港中文大学 论文名称:Dynamic Fusion with Intra- and Inter-modality Attention Flow forVisual Question Answering 原文作者:Peng Gao

多模态特征的有效融合是VQA问题的一个热点。本文提出了一种动态融合多模态特征和模态内、模态间信息流的新方法,使信息在视觉和语言模态间交替传递。它能较好地捕捉语言和视觉域之间的高层次交互,从而显著提高VQA的性能。该研究还表明,基于其他模态的动态内模注意流可以动态地调节目标模态的内模注意,这是多模特征融合的关键。对VQA 2.0数据集的实验评估结果表明,该模型达到了SOTA效果。为了全面分析所提出的方法,进行了广泛的消融学习。

下面是论文具体框架结构以及实验结果:

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档