学界 | 双重注意力网络:中科院自动化所提出新的自然场景图像分割框架(附源码)

选自 arxiv

作者:Jun Fu、Jing Liu、Haijie Tian、Zhiwei Fang、Hanqing Lu

机器之心编译

参与:张倩、王淑婷

场景分割是语义分割领域中重要且具有挑战的方向。为了有效完成场景分割任务,需要区分一些容易混淆的类别,并考虑不同外观的物体。本文提出了一个新的自然场景图像分割框架,称为双重注意力网络(DANet),引入了一种自注意力机制来分别捕捉空间维度和通道维度上的视觉特征关联。在处理复杂多样的场景时,本文提出的方法比以往的方法更为灵活、有效,在三个具有挑战性的场景分割数据集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了当前最佳分割性能。

场景分割是语义分割领域中重要且具有挑战的方向,其可以应用于自动驾驶,增强现实,图像编辑等领域。场景分割需要预测出图像中的像素点属于某一目标类或场景类,其图像场景的复杂多样(光照,视角,尺度,遮挡等)对于场景的理解和像素点的判别造成很大困难。当前主流场景分割方法大致可分为以下两种类型:一是通过使用多尺度特征融合的方式增强特别的表达,例如空间金字塔结构 (PSP,ASPP) 或者高层浅层特征融合 (RefineNet)。但是这些方式没有考虑到不同特征之间的关联依赖,而这对于场景的理解确实十分重要。另一是利用 RNN 网络构建特征长范围的特征关联,但这种关联往往受限于 RNN 的 long-term memorization。

本文提出了一种简单有效的双重注意力网络(Dual Attention Network, DANet),通过引入自注意力机制 (self-attention mechanism) 在特征的空间维度和通道维度分别抓取特征之间的全局依赖关系,增强特征的表达能力。该网络在 Cityscapes,PASCAL Context 和 COCO-Stuff 三个公开的场景分割数据集上均取得了当前最好性能,相比 Dilated FCN 性能得到 5 个点以上的显著提升。

论文:Dual Attention Network for Scene Segmentation

  • 论文链接:https://arxiv.org/pdf/1809.02983.pdf
  • 代码链接:https://github.com/junfu1115/DANet

摘要:在本文中,我们基于自注意力机制捕获丰富的语境关联来解决场景分割问题。与以往通过多尺度特征融合捕获语境的研究不同,我们提出了一种双重注意力网络(DANet)来自适应地将局部特征与其全局依赖关系相结合。具体来说,我们在传统的基于空洞卷积的 FCN 上添加了两种注意力模块,分别对空间维度和通道维度的语义相互关联进行建模。位置注意力模块通过所有位置的特征加权总和选择性地聚集每个位置的特征。无论距离远近,相似的特征都会相互关联。同时,通道注意力模块通过整合所有通道图中的相关特征,有选择地强调相互关联的通道图。我们将两个注意力模块的输出相加,以进一步改进特征表示,这有助于获得更精确的分割结果。我们在三个具有挑战性的场景分割数据集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了当前最佳分割性能。特别是,在不使用粗略数据的情况下,在 Cityscapes 测试集的平均 IoU 分数达到了 81.5 %。

方法

DANet 在特征的空间维度和通道维度分别引入自注意力机制,即位置注意力模块和通道注意力模块,有效抓取特征的全局依赖关系。系统框架图和两个模块的具体结构如下:

图 1. DANet 的网络框架图

图 2. A 为位置注意力结构图, B 为通道注意力结构图

位置注意力模块旨在利用任意两点特征之间的关联,来相互增强各自特征的表达。具体来说,首先计算出任意两点特征之间关联强度矩阵,即原始特征 A 经过卷积降维获得特征 B 和特征 C,然后改变特征维度 B 为 ((HxW)xC') 和 C 为 (C'x(HxW)) 然后矩阵乘积获得任意两点特征之间的关联强度矩 ((HxW)x(HxW))。然后经过 softmax 操作归一化获得每个位置对其他位置的 attention 图 S, 其中越相似的两点特征之间,其响应值越大。接着将 attention 图中响应值作为加权对特征 D 进行加权融合,这样对于各个位置的点,其通过 attention 图在全局空间中的融合相似特征。

通道注意力模块旨在通过建模通道之间的关联,增强通道下特定语义响应能力。具体过程与位置注意力模块相似,不同的是在获得特征注意力图 X 时,是将任意两个通道特征进行维度变换和矩阵乘积,获得任意两个通道的关联强度,然后同样经过 softmax 操作获得的通道间的 attention 图。最后通过通道之间的 attention 图加权进行融合,使得各个通道之间能产生全局的关联,获得更强的语义响应的特征。

为了进一步获得全局依赖关系的特征,将两个模块的输出结果进行相加融合,获得最终的特征用于像素点的分类。

实验

为了评估提出的此方法,我们在 Cityscapes 数据集、PASCAL Context 数据集、COCO Stuff 数据集上做了综合实验。实验结果表示,DANet 在这些数据集上取得了顶级结果。

在 Cityscaps 数据集上的结果

表 1:在 Cityscapes 验证集上的对比实验。PAM 表示位置注意力模块,CAM 表示通道注意力模块。

图 3:在 Cityscapes 验证集上仅使用和不使用位置注意力模块效果对比图。

图 4:在 Cityscapes 验证集上仅使用和不使用通道注意力模块的效果对比图。

表 2:在 Cityscape 验证集上,不同策略之间的表现对比。DANet-101 表示 DANet 使用 BaseNet ResNet-101,DA 表示训练数据采用多尺度增强,Multi-Grid 表示使用多重网络方法,MS 表示测试时多尺度融合。

图 5:注意力模块在 Cityscapes 验证集上的可视化结果。每一行包括一张输入图像,两个与输入图像中标记的点对应的子注意力图(H × W)。同时,我们也给出了来自通道注意力模块输出的两张通道图,分别来自第 4 和第 11 通道。最后,也给出了对应的结果和真实值。

可以看出位置注意力模块中,全局区域下相似语义特征之间响应较大,而通道注意力模块中,通道对某些语义区域有很强的响应。

表 3:在 Cityscapes 测试集上每个类别的结果。DANet 超越了已有方法,平均 IoU 达到 81.5%。

本文与当前 state-of-the-art 进行了对比,在仅使用精细数据集(fine data)作为训练数据,resnet-101 作为基模型下,取得当前最好的分割性能。值得一提的是,目前并没有采用在线困难样本挖掘(OHEM, Focal Loss),更高分辨率的测试方法,更强大的基模型等策略,进一步的效果提升值得期待!

在 PASCAL Context 数据集上的结果

表 4:在 PASCAL Context 测试集上的分割结果

在 COCO Stuff 数据集上的结果

表 5:在 COCO Stuff 测试集上的分割结果

中科院自动化所图像与视频分析团队(IVA),隶属于模式识别国家重点实验室,有着深厚的学术底蕴和强大的人才支持,在 PAMI,TNNLS,TIP 等重要国际期刊和 CVPR,ICCV,ECCV 等国际会议上发表论文数百余篇,论文具有国际影响力,其中有多篇论文被 ESI 国际性基本科学指标数据库列为高被引论文。在 ICCV 2017 COCO-Places 场景解析竞赛、京东 AI 时尚挑战赛和阿里巴巴大规模图像搜索大赛踢馆赛等多次拔得头筹。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】计算机视觉和 CNN 发展十一座里程碑(附论文下载)

【新智元导读】从AlexNet到ResNet,计算机视觉领域和卷积神经网络(CNN)每一次发展,都伴随着代表性架构取得历史性的成绩。作者回顾计算机视觉和CNN过...

46440
来自专栏机器之心

这是一份优美的信息图,吴恩达点赞的deeplearning.ai课程总结

机器之心整理 参与:思源、刘晓坤 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识...

38660
来自专栏华章科技

这份深度学习课程笔记获吴恩达点赞

吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解...

10630
来自专栏机器之心

学界 | 稳!DeepMind提出多任务强化学习新方法Distral

选自arXiv 机器之心编译 参与:蒋思源、黄小天 深度强化学习因为复杂的环境而很难进行有效的训练,通常我们会简化环境或使用共享神经网络参数的方法进行多任务学习...

32150
来自专栏新智元

变形卷积核、可分离卷积?卷积神经网络中10大拍案叫绝的操作

【新智元导读】CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。本文作者对近几年一些...

29850
来自专栏AI研习社

变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作

从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。我下面会对近几年一些具有变革性的工作进行...

30150
来自专栏机器学习AI算法工程

逻辑回归、决策树和支持向量机

作者:赵屹华,计算广告工程师@搜狗, http://www.csdn.net/article/2015-11-26/2826332 这篇文章,我们将讨论如何在逻...

30640
来自专栏量子位

如何通过梯度上升实现可视化卷积核?

作者:陈仲铭 海格通讯 | 高级算法工程师 量子位 已获授权编辑发布 转载请联系原作者 为什么我的CNN网络模型训练出来的东西总是过度拟合?已经改了很多次参数都...

48660

时间序列预测如何变成有监督学习问题?

时间序列预测问题可以作为一个有监督学习问题来解决。

1.2K50
来自专栏数据派THU

这份深度学习课程笔记获吴恩达点赞

来源:机器之心 通过本文用优美的信息图为大家解读深度学习课程的知识与亮点~ 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息...

57070

扫码关注云+社区

领取腾讯云代金券