前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >通过空间上下文特征进行阴影检测

通过空间上下文特征进行阴影检测

作者头像
SIGAI学习与实践平台
发布于 2019-04-26 08:24:27
发布于 2019-04-26 08:24:27
1.2K0
举报

小编推荐:

五期飞跃计划还剩7个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO2)


简介

阴影检测是计算机视觉中基础且具有挑战性的问题——对于一张输入图像,我们通过生成二进制图像来标记阴影区域,阴影区域的检测为进一步获取图像中的光照情况、物体的形状与位置,以及摄像机的参数提供了可能。与此同时,阴影的存在也为计算机视觉中进一步理解图像的算法,例如物体的检测与跟踪,带来了障碍。阴影检测需要对整张图片进行一个全局的语意信息的理解,从而才能够正确的提取出阴影的位置。 本文通过DSC(direction-aware spatial context) 信息,从而提取到更为全局的特征,并且能更好的判断出阴影的位置。

正文

阴影检测问题和二分类的语义分割问题十分相似,本质上是对图中的每一个像素点,判断出该像素点属于阴影还是属于非阴影。但是,阴影检测的难点在于,图中很多黑色区域容易被当做阴影,事实上,从全局的角度看,并不是阴影。比如一块黑色的布放在地上,如果没有丰富的全局上下文信息作为指导,网络很有可能无法区分该区域是不是阴影。

ICCV2017 的scGAN 与ECCV2016 的stacked-CNN,主要是通过深度神经网络从大量的数据样本中自动学习特征,用于检测阴影区域。

如下图所示,从全局看是右边的人在追杀左边的人,但是从电视中这个局部的视角,是左边的人在杀右边的人。因此,通过这个例子,可以看出全局语义信息对于阴影检测的指导意义。

在下图中,可以看到从C-->A并不能简单判断是不是阴影,因为C和A都是黑色区域。然而,从B-->A的方向上,可以很容易判断出A区域是阴影,因为B-->A有很明显的光照变化。因此本文基于这个思想提出了通过提取不同方向的上下文信息去分析阴影区域。

再比如这张图,黄色车道线区域虽然是阴影,但是由于颜色差距较大,之前的方法检测效果较差,很容易当做非阴影区域处理。但是如果通过黄色区域的四个方向的信息可以判断出黄色区域也是阴影。

整体流程

网络结构如下

首先通过主干网络提取不同层次的特征(蓝色区域),其次通过作者设计的DSC模块得到具有四个方向的信息的特征,然后通过1x1的卷积进行降维并将所有尺度的特征upsample到统一尺度预测结果,最后对结果求平均值得到最终结果。

下图是作者提出的DSC模块,通过spatial RNN建模四个方向的信息。

第一轮通过对输入的feature map通过RNN进行四个方向的卷积,这样,feature map中的任何一个像素都会得到来自他所在的行和列的像素的信息。

第二轮再重复上述操作,经过两轮RNN,feature map中的每一个像素都会得到来自所有像素的信息,这样的feature map中是包含丰富的global context的,对于阴影的定位不会受局部特征的影响。

具体的说,就是将一个卷积神经网络中的 2D 特征图作为输入,首先经过一个 1 乘 1 的卷积操作,之后是四个方向的 recurrent translation。接着我们将四个结果综合起来作为中间的特征图,然后重复上述过程,最终得到全局的空间上下文特征。

为了进一步方向性的分析空间上下文特征,我们采用的是 attention 机制,来生成一组权值,并且将他们分成四张权值图,分别通过点对点的方式,乘上四个方向的空间上下文特征。

这些权值会在两次 recurrent translation 中共享(且可以跟整个深度学习网络一起进行训练),因此,我们可以通过在不同方向上选择性的使用空间上下文特征来得到 direction-aware spatial context feature,这个结果我们叫做 DSC 特征。

至于获取该特征的过程被称作 DSC 模块。如下图所示。

实验细节

作者采用weighted cross entropy loss, L_total = L1 + L2

L1 用来平衡阴影区域与非阴影区域的比重,如果阴影区域的面积小于非阴影区域,会惩罚误检的阴影区域多一些。

L2 帮助网络去学习不容易识别的类型(这里主要指阴影或非阴影)。如果正确识别的阴影区域较小,那么他的损失函数的权值就会变大,反之亦然。

在测试过程中,作者使用 MLIF 层以及 fusion 层的均值作为最后的结果。并且使用 CRF 作为后处理,用来改进检测到的阴影区域的边界。

数据集简介

作者在SBU数据集上进行训练,SBU是最大的阴影检测数据集,其中包括4089张训练数据和638张测试数据。 作者并在UCF数据集上进行测试,UCF包括76张测试图片上。

可视化结果分析

作者对比了一系列阴影检测算法,其中甚至对比了知名的语义分割算法PSPNet。

可视化结果如下:

可以看到别的算法或多或少都把一些非阴影区域当做阴影,或者说没有检测出阴影区域,而作者的算法可以准确检测阴影,并排除非阴影区域。

定量结果分析

如下表所示,作者的算法在两个数据集上都取得了最好的结果。

总结

这篇文章主要的亮点在于引入了DSC模块,从而可以提取全局的语义信息,这个思想和后续kaiming 大神的 的non-local有异曲同工之妙,不知道non-local是不是借鉴了这个idea呢?个人觉得这个idea可以借鉴到目标检测和语义分割之中,从而缓解错误样本的检测和分割的问题。

参考文献:

H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, pages 2881–2890, 2017.

V. Nguyen, T. F. Y. Vicente, M. Zhao, M. Hoai, and D. Samaras.Shadow detection with conditional generative adversarial networks. In ICCV, pages 4510–4518, 2017

T. F. Y. Vicente, L. Hou, C.-P. Yu, M. Hoai, and D. Samaras. Large-scale training of shadow detectors with noisilyannotated shadow examples. In ECCV, pages 816–832, 2016.

K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.

本文为SIGAI原创

如需转载,欢迎发消息到本订阅号

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SIGAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
模块设计之 SKNet, GCNet, GloRe, Octave
http://www.tensorinfinity.com/paper_157.html
SIGAI学习与实践平台
2019/05/20
1.8K0
模块设计之 SKNet, GCNet, GloRe, Octave
多尺度特征融合:为检测学习更好的语义信息(附论文下载)
论文地址:https://arxiv.org/pdf/2112.13082.pdf
计算机视觉研究院
2022/01/28
1.6K0
多尺度特征融合:为检测学习更好的语义信息(附论文下载)
目标检测 | 解决小目标检测!多尺度方法汇总
最开始在深度学习方法流行之前,对于不同尺度的目标,大家普遍使用将原图构建出不同分辨率的图像金字塔,再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标,以求在金字塔底部检测出小目标;或者只用一个原图,在原图上,用不同分辨率的分类器来检测目标,以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架,均使用图像金字塔的方式处理多尺度目标,早期的CNN目标识别框架同样采用该方式,但对图像金字塔中的每一层分别进行CNN提取特征,耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是,其实目前大多数深度学习算法提交结果进行排名的时候,大多使用多尺度测试。同时类似于SNIP使用多尺度训练,均是图像金字塔的多尺度处理。
AI算法修炼营
2020/05/15
2.2K0
目标检测 | 解决小目标检测!多尺度方法汇总
ECCV2020 | RecoNet:上下文信息捕获新方法,比non-local计算成本低100倍以上
上下文信息在语义分割的成功中起着不可或缺的作用。事实证明,基于non-local的self-attention的方法对于上下文信息收集是有效的。由于所需的上下文包含空间和通道方面的注意力信息,因此3D表示法是一种合适的表达方式。但是,这些non-local方法是基于2D相似度矩阵来描述3D上下文信息的,其中空间压缩可能会导致丢失通道方面的注意力。另一种选择是直接对上下文信息建模而不进行压缩。但是,这种方案面临一个根本的困难,即上下文信息的高阶属性。本文提出了一种新的建模3D上下文信息的方法,该方法不仅避免了空间压缩,而且解决了高阶难度。受张量正则-多态分解理论(即高阶张量可以表示为1级张量的组合)的启发,本文设计了一个从低秩空间到高秩空间的上下文重建框架(即RecoNet)。具体来说,首先介绍张量生成模块(TGM),该模块生成许多1级张量以捕获上下文特征片段。然后,使用这些1张量通过张量重构模块(TRM)恢复高阶上下文特征。大量实验表明,本文的方法在各种公共数据集上都达到了SOTA。此外,与传统的non-local的方法相比,本文提出的方法的计算成本要低100倍以上。
AI算法修炼营
2020/08/10
1.4K0
浅谈动作识别TSN, TRN, ECO
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。
SIGAI学习与实践平台
2018/09/24
5.1K0
浅谈动作识别TSN, TRN, ECO
图片相似性匹配中的特征提取方法综述
stevenmiao(苗捷),2016年7月博士毕业于华南理工大学,应届毕业加入TEG信息安全部。八年计算机视觉算法经验,博士期间主要研究面向视频的特征提取和内容识别算法。入职以来主要负责部门内基于大规模图像和视频检索、匹配的恶意内容过滤算法。 一、引言 图片相似性匹配,即对比两张图片的相似程度,可以用于图片搜索、聚类、版权保护、恶意图片过滤等应用。本文主要介绍用于图片相似性匹配的特征各类特征提取方法。对于图片的相似性匹配,可根据匹配的形式分为四个层次,分别概括如下: 1.像素级别相似:两张图片每个对应
TEG云端专业号
2018/03/14
5.6K0
图片相似性匹配中的特征提取方法综述
人脸检测算法之 S3FD
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。
SIGAI学习与实践平台
2018/07/16
1.4K0
人脸检测算法之 S3FD
CVPR2020 | Strip Pooling:语义分割新trick,条纹池化取代空间池化
代码链接:https://github.com/Andrew-Qibin/SPNet
AI算法修炼营
2020/05/08
2.6K0
计算机视觉技术self-attention最新进展
Attention注意力,起源于Human visual system(HVS),个人定义的话,应该类似于 外界给一个刺激Stimuli,然后HVS会第一时间产生对应的 saliency map,注意力对应的应该就是这个显著性区域。
SIGAI学习与实践平台
2018/09/29
8321
计算机视觉技术self-attention最新进展
涨点神器!GSA:全局自注意力网络,打造更强的注意力模型!
由于自注意力的二次计算和存储复杂性,这些工作要么仅将注意力应用于深层网络后期的低分辨率特征图,要么将每层的注意力感受野限制在较小的局部区域。为了克服这些限制,本文引入了一个新的全局自注意力模块,称为GSA模块,该模块足够高效,可以用作深度网络的backbone组件。
Amusi
2020/11/03
2.3K0
涨点神器!GSA:全局自注意力网络,打造更强的注意力模型!
从 Transformer 到 CDXFormer,过特征增强层提升检测性能!
地球观测技术的迅速发展,包括遥感平台和传感器的进步,扩大了监测地表活动的能力。遥感变化检测(RS-CD)通过比较同一地区不同时间拍摄的图像,识别出感兴趣目标的改变。这使得可以对地理和环境变化进行定量和定性评估,应用在城市规划,灾害评估[2],和环境监测[3]等领域。
未来先知
2024/12/19
2020
从 Transformer 到 CDXFormer,过特征增强层提升检测性能!
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
遥感(RS)技术的快速发展极大地改变了作者对地球时间和空间尺度的认识。遥感技术在农业、林业、地质学、气象学、军事和环境保护等领域得到广泛应用,实现了系统性的分析、评估和预测。在这些应用中,语义分割在许多下游地质学任务中起着重要的作用,如土地覆盖分类和城市扩张监测等。
未来先知
2024/09/29
3140
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
自然场景文本检测识别技术综述
0629封面.jpg 番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模
SIGAI学习与实践平台
2018/06/30
7.8K1
自然场景文本检测识别技术综述
【SIGAI综述】行人检测算法
行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种场景下的行人具有很大的难度。在本文中,将为大家回顾行人检测算法的发展历程。
小白学视觉
2019/06/02
1.2K0
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
SCTransNet有效地编码了目标与背景之间的语义差异,从而提升了其内部表征,以准确检测小红外目标。 在三个公开数据集NUDT-SIRST、NUAA-SIRST和IRSTD-1k上的大量实验表明,所提出的SCTransNet优于现有的IRSTD方法。 代码:https://github.com/xdFai
集智书童公众号
2024/02/21
1.7K0
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 19 个在图像分割任务上曾取得 SOTA 的经典模型。 第 1 期:FCN、ReSeg、U-Net、ParseNet、DeepMask、S
机器之心
2023/05/16
1.3K0
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)
收藏 | 目标检测网络学习总结(RCNN --> YOLO V3),
之前总结了一下卷积网络在分类方面的一些网络演变,但是自己做的是语义SLAM,所以对于目标检测和语义分割甚至实例分割算法都要有所了解,毕竟以后要拿来用,不了解那根本没法用。这个也是结合深度学习大讲坛的课程和我自己的总结,个人觉得这个课程还是比较不错的,把整个算法脉络给我们讲清楚了,只要自己去梳理,也就能够比较快速的了解。自从2012年深度学习在ImageNet上面大放异彩之后,大家关注到了深度学习在计算机视觉领域的巨大潜力。首先来对比一下传统的目标检测算法和基于深度学习的目标检测算法之间的不同点:
昱良
2019/07/04
9130
成功上岸阿里,深度学习知识考点总结
从 2018 年开始,就有人开始担忧算法工程师的前景,一直到如今的算法岗灰飞烟灭。
Jack_Cui
2020/09/03
8070
成功上岸阿里,深度学习知识考点总结
自动驾驶领域:一种实时高精度的城市道路场景语义分割方法
论文下载:https://arxiv.org/pdf/2003.08736.pdf
3D视觉工坊
2020/12/11
5410
【SIGAI综述】行人检测算法
行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种场景下的行人具有很大的难度。在本文中,SIGAI将为大家回顾行人检测算法的发展历程。
SIGAI学习与实践平台
2018/08/07
2.1K0
【SIGAI综述】行人检测算法
推荐阅读
相关推荐
模块设计之 SKNet, GCNet, GloRe, Octave
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档