CVPR 2018 论文简单笔记(部分,待更新)

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR 官网显示,今年大会有超过 3300 篇论文投稿,其中录取 979 篇;相比去年 783 篇论文,今年增长了近 25%。本次将介绍 CVPR 2018部分论文的简单笔记。

CVPR作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在2018年最新和最高的科技水平以及未来发展潮流。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。CVPR 2018包括21场tutorials、48场workshops,并且有来自全球各地超过115家企业将入驻今年CVPR工业展览。

下面,我们就开始进入主题,正式学习高质量的paper。


  • An Analysis of Scale Invariance in Object Detection – SNIP

这篇文章主要是解决目标检测中的小目标的问题。小目标检测一直是目标检测中的难点,主要由于小目标面积过小,在RPN的Anchor内,容易通过IoU设置将其丢弃,还会存在CNN提取的高层语义特征容易与分辨率产生矛盾,致使检测的效果极差,如果有相关领域并且通过实验验证的您,一定会遇到相同的问题,最终的AP都比较低。

而,今天首先推选的这篇文章,就一定程度解决了该问题。

COCO数据集为例,目前普遍使用的ImageNet网络训练得到的模型作为预训练模型。COCO数据集90%的Instance的大小都在0.472以下,和ImageNet差别非常大,说明了COCO这样的数据集中存在着大量的小目标,另一方面也说明了ImageNet预训练的模型在迁移到样本大小差异较大的COCO数据集中时,很可能产生一定的偏差,泛化能力不够。因此作者产生这样的motivation:

  • 为了提高对小目标的检测结果,采用upsample的方法,这个真的是必要的吗?其实,直接用低分辨率的图像来不训练网络(需要调小strides)可以吗?
  • 能不能通过挑选样本的方式来增加网络效果的,比如用upsample调整了大小之后,只用一定尺寸范围内的ground truth来训练?用所有的GT来训练真的会更好吗?

于是本文主要工作内容:

  • 文章通过实验验证了upsampling对于提高小目标检测的效果;
  • 提出了一种Scale Normalization for Image Pyramids的方法。

首先,主要探究的是低分辨率图像和特定网络结构结合是否会有较好的效果。

可以看出来,将图像样本先下采样降低分辨率,然后再用upsample还原回来,这过程使下采样的样本分辨率降低,再upsample后分辨率其实不会得到提升,但是这样可以将小目标分辨率低和面积小的问题还原。

通过图可以看出,三个网络中:

  • CNN-B使用高分辨率图像训练,分类经过下采样和upsample的图片;
  • CNN-S使用低分辨率图像训练,分类经过下采样的图片;
  • CNN-B-FT使用高分辨率图像训练,然后在低分辨率图像上微调,分类经过下采样和upsample的图片。

如上面图示的三种网络的训练方式和效果。结论是:当我们要检测小的问题的时候,在输入是大的scale的网络上预训练、在高分辨率作为输入的网络上预训练、在upsample后的图片作为输入的网路上预训练,对检测小物体有益。

本质上,三个网络都是在对小目标进行分类,不过CNN-S因为本身网络结构就不同,输入比较小,不需要经过upsample。最后结果,CNN-B-FT准确率最高,CNN-S其次,作者认为这是因为模型从高分辨率图像中得到了充分的学习。这就说明了,训练样本和输入样本如果分辨率存在太大误差,性能肯定会有所下降。与其为了小目标而专门使用改进的网络结构(CNN-S),直接upsample和使用高分辨率图像预训练得到的模型是更好的选择(CNN-B-FT)。

不过这个实验没什么太大的用处。只是为了证明了fine-tune的必要性。然后做了第二个实验,主要是想研究图像分辨率对结果的影响:

作者想通过这个实验说明如下:

  • upsample在一定程度上可以提高性能,但是并不显著,这是因为upsample提高了小目标的检测效果,但会让本来正常大小或者本来就大的目标过大,性能下降;
  • 训练网络需要使用大量样本,样本损失会导致性能下降;
  • 随机在分辨率之间采样的效果也不好,虽然样本满足了多尺度条件,但是还有其它原因限制了性能。

本质上,这是因为CNN网络没有尺度不变性,只能通过大量样本训练,通过参数学习来硬记住不同尺寸的目标。所以下面就提出针对性的解决方案。

主要思路就是在训练和反向传播更新参数时,只考虑哪些在指定的尺度范围内的目标,由此提出了一种特别的多尺度训练方法,即SNIP(Scale Normalization for Image Pyramids)。

在训练时,划分了三个尺度,对应三种不同分辨率的图像。每个分辨率下的RoI都有其指定范围,如果GT的bounding-box大小在这个范围内,就被标记做valid,否则就被标记为invalid。

这种做法,最终的检测效果大大提升,但是训练过程比较复杂:

  • 作者使用的是Deformable RFCN detector而不是常见的一般卷积;
  • 作者使用的网络结构是Dual path networks(DPN)和ResNet-101,由于需要内存很大,为了适应GPU内存,作者对图像进行了采样,具体方法是选取一个1000x1000的包含最多目标的区域作为子图像,然后重复该步骤直到所有目标都被选取 ;
  • 作者为了提升RPN的效果,尝试了使用7个尺度,连接conv4和conv5的输出。

更多的详细设置见:代码链接:https://arxiv.org/abs/1711.08189


  • Relation Networks for Object Detection

该文章主要是在detection当中引入了relation的信息,个人感觉算是个很不错的切入点,而且motivation是源自NLP的,某种方面也说明了知识宽度的重要性。但是一个比较可惜的点就是,relation module更像是拍脑袋思考了一个方法然后直接去实验验证了,对于relation到底学到了什么,能不能更好地理解这个信息,作者认为这还是个有待解决的问题。期待在relation问题上能看到更多有趣的思路吧。

这个文章虽然并没有什么巧妙的设计,但是思路很有趣,那就是引入了object的关联信息,在神经网络中对object的relations进行建模。主要贡献点有两条:

  • 提出了一种relation module,可以在以往常见的物体特征中融合进物体之间的关联性信息,同时不改变特征的维数,能很好地嵌进目前各种检测框架,提高性能 ;
  • 在上面的基础上,提出了一种特别的代替NMS的去重模块,可以避免NMS需要手动设置参数的问题。

详细内容将在下一期详细讲解,未完待续!


如果想加入我们“计算机视觉战队”,请扫二维码加入学习群,我们一起学习进步,探索领域中更深奥更有趣的知识!

近期,又是新的一个毕业季,也有很多相关的会议在火热召开,希望在该领域的您积极参加,学习最先进的技术和知识,因为我们平时看到的paper,虽然是2017或2018,但是作者提出时可能是2016,因为期刊发行会推延一些,所以我们应该时刻跟随科研的步伐,时刻学习和探究最新的动态,这样我们才能知道该领域的趋势和方向,才能将自己科研落实在正确的轨道,在此,祝贺毕业生前途似锦,事事顺利,也在此祝贺自己顺利毕业?!希望,以后我们的平台还可以持续为大家带来好的分享,也希望大家继续关注和支持我们,谢谢!

之后我们还会继续分享最新的会议笔记,希望可以给相关的您带来那么一丝丝帮助,也希望大家在阅读过程有自己的见解和观点,更希望大家在我们的学习群里踊跃的探讨学术问题,再次感谢大家的支持与关注,谢谢!

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2018-06-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【推荐】深度学习-LeCun、Bengio和Hinton的联合综述(上)

【编者按】三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度学习领域的地位无人不知。为纪念人工智能提出60周年,最新的...

27460
来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

37460
来自专栏AI科技评论

大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读

AI 科技评论按:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 20...

17320
来自专栏技术翻译

最受欢迎的十大AI模型

虽然人工智能和机器学习为企业提供了充分的可能性来改善其运营并最大化其收入,但却没有“免费午餐”这样的东西。

1.2K40
来自专栏AI科技评论

微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预...

486120
来自专栏企鹅号快讯

如何利用深度学习识别千万张图片?

首先我们来谈一下什么是卷积神经网络,相信在深度学习中这是最重要的概念,首先你可以把卷积想象成一种混合信息的手段。想象一下装满信息的两个桶,我们把它们倒入一个桶中...

26150
来自专栏CDA数据分析师

如何利用机器学习进行海量数据挖掘

互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。但特征一多规则就很难制定,即使定下了规则也没法根据...

24370
来自专栏Vamei实验室

概率论10 方差与标准差

除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。 ?...

22060
来自专栏人人都是极客

机器学习套路就这三个

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特...

400160
来自专栏SIGAI学习与实践平台

【技术短文】基于深度负相关学习的人群计数方法

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

19960

扫码关注云+社区

领取腾讯云代金券