计算机视觉与模式识别论文摘要:第二代可变形卷积、混合卷积

arxiv论文摘要两篇

论文一

论文标题:Deformable ConvNets v2: More Deformable, Better Results,可变形卷积网络,越变结果越好

论文摘要:

可变形卷积网络的优越性能来源于其对目标几何变量的适应能力。通过对其自适应行为的检验,我们发现其神经特征的空间支持比常规的卷积网络更符合目标结构,但是这种支持可能远远超出感兴趣的区域,导致特征受到不相关图像内容的影响。

为了解决这个问题,我们提出了一种可变形对流网络的重构方法,通过增强建模能力和更强的训练来提高其聚焦相关图像区域的能力。通过对网络中可变形卷积进行更全面的集成,引入一种扩展变形建模范围的调制机制,增强了建模能力。为了有效地利用这种丰富的建模能力,我们通过提出的特征模拟方案指导网络训练,该方案帮助网络学习特征,这些特征反应目标焦点和R-CNN网络分类能力的特征。通过提出的贡献,这个可变形卷积网络的新版本——第二代可变形卷积网络(Deformable ConvNets v2,简称 DCNv2),比原来的模型获得了显著的性能改进,并的COCO数据集的基准测试上,在用于对象检测和实例分割方面产生了领先的结果。

论文二

论文标题:Question-Guided Hybrid Convolution for Visual Question Answering,用于视觉问答的问题导向型混合卷积网络

论文摘要:

在本文中,我们提出了一种新的问题导向型的混合卷积(QGHC)网络用于视觉问答(VQA)。大多数最先进的视觉问答(VQA)方法融合了神经网络中的高级文本和视觉特征,并在学习多模态特征时放弃了视觉空间信息。

为了解决这些问题,在早期阶段,由输入问题生成的问题导向型的卷积核被设计用于,文本和视觉关系的视觉特征卷积在一起。问题导向型的卷积不仅可以将文本信息与视觉信息紧密结合,而且在学习卷积核的过程中引入了更多的参数。我们采用两种卷积核,一种独立于问题的卷积核和一种依赖于问题的卷积核,这两张卷积核组成的群卷积核来减小参数的大小,减少过拟合。混合卷积网络可以产生有区分能力(discriminative)的多模态特征,有少量的参数。

论文中方法是对现有的双线性池化融合和基于注意力模型的视觉问答方法的补充。通过与它们的集成,我们的方法可以进一步提高性能。在公共视觉问答数据集上的大量实验验证了问题导向型的混合卷积网络的有效性。(完)

注:文中我们均指论文作者。

亲爱的数据

出品:谭婧

美编:陈泓宇

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181130A0TW8J00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券