复旦大学Ph.D沈志强:用于目标检测的DSOD模型(ICCV 2017) | 分享总结

目标检测作为一个基础的计算机视觉任务,在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集(如ImageNet)上预训练初始模型。而在 DSOD: Learning Deeply Supervised Object Detectors from Scratch 这篇论文中,作者通过分析深度检测模型从头训练存在的问题,提出了四个原则,他们根据这些原则构建了DSOD模型,该模型在三个标准数据集(PASCAL VOC 07, 12和COCO)上都达到了顶尖的性能。这篇论文已被ICCV2017收录。 在近期雷锋网(公众号:雷锋网) AI研习社的线上分享会上,该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读,与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强,复旦大学Ph.D,UIUC ECE系访问学者,导师Thomas S. Huang教授。研究兴趣包括:计算机视觉(目标检测、视频描述、细粒度分类等),深度学习,机器学习等。他曾在因特尔中国研究院(Intel Labs China)进行为期一年的实习研究,期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容:

很高兴与大家分享我们的最新的工作DSOD,这篇论文已经被ICCV 2017 所收录。

众所周知,计算机视觉有几个比较重要的分类,包括目标分类、定位、目标检测、实例分割,前两个分类是针对单个目标,后两个分类是针对多个目标,DSOD主要是针对目标检测。

说到目标检测,大家可能会想到如下几个比较有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

ImageNet预训练模型的限制:一是模型结构是固定的,你不可能改变它的结构,二是会有learning bias,三是会出现domain不匹配的情况。我们的思路是从头训练检测器,但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

简单回顾下Rol pooling,如下图所示:

它其实就是一个max pooling:

可以在下图中看到forward和backward情况,把Rol pooling去掉这个框架就类似于YOLO和SSD。

几个原则:一是Proposal-free。去掉Rol pooling,虽然对模型的表现影响不大,但这一点非常重要。

二是Deep Supervision。采用Dense Block,能避免梯度消失的情况。

三是Dense Prediction Structure。大大减少了模型的参数量,特征包含更多信息。

四是Stem Block。采用stem结构,好处是能减少输入图片信息的丢失。

下面是DSOD整体结构:

这是我们做的一些对比实验,可以看到增加这些结构之后性能提升的百分点:

下面是在PASCAL VOC2007上的实验结果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验,可以看到Faster-RCNN和R-CNN均以失败告终,最后的一行的实验加入COCO后mAP值提升,说明DSOD模型本身的泛化能力非常强。

下面是在PASCAL VOC2012上的实验结果,可以看到DSOD有不错的mAP值。

接下来是在COCO上面的一些结果,对比起来DSOD的也有很好的性能。

最后是一些实际的检测结果,可以看到bounding box对目标的检测非常贴合。

论文地址: https://arxiv.org/abs/1708.01241

代码:https://github.com/szq0214/DSOD

模型可视化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning,主要是做视频描述。在视频当中包含很多内容,而这些内容并不一致,因此视频描述相对来说会比较困难。下图是一些示例。

网络结构如下图所示。具体细节大家可以参见我们的论文Weakly Supervised Dense Video Captioning,论文地址:https://arxiv.org/abs/1704.01502

接下来是我们在ICCV 2017上的工作,主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型,然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文Learning Efficient Convolutional Networks through Network Slimming,论文地址:https://arxiv.org/abs/1708.06519

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

独家 | 光流与行为识别的结合研究

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。 在视频行为识别(action recognition)方向,目前...

56270
来自专栏吉浦迅科技

手撕深度学习算法开讲:先简单撕撕SVM

说在前面 我们的手撕深度学习算法讲坛终于要开始了。 本次手撕系列的讲师们都来自台湾机器学习读书会,他们是这样一群人: ? 他们的工作甚至跟深度学习没有太相关, ...

435150
来自专栏PaddlePaddle

【AI核心技术】课程二:Modern AI课程体系

从今天开始,UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程继续更新!

13130
来自专栏AI研习社

谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 研习社按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描述...

40050
来自专栏AI科技评论

干货 | 图像比赛的通用套路有哪些?Kaggle比赛金牌团队为你解答

AI 科技评论按: Kaggle 是全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台,来看看 Kaggle 亚马逊雨林比赛金牌团队的经验分享吧。 日前,中...

48760
来自专栏AI科技大本营的专栏

福利 | 跟我一起学《图解机器学习》

本文节选自日本理化学研究所先进智能研究中心主任杉山将的《图解机器学习》的第一章。 如果喜欢这本书,请在评论区留言,说出你目前在机器学习方面所遇到的问题,评论点...

28290
来自专栏AI派

机器学习中你不可不知的几个算法常识

读完 机器学习基础 之后,你已经知道了到底什么是机器学习以及机器学习的学习任务。在这篇给大家介绍一些机器学习中必须要了解的几个算法常识,这些算法常识在之后从事机...

15640
来自专栏新智元

复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法

【新智元导读】复旦大学、清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) ,能够在完全脱离预训练模型的情况下,使用有限训练数据,达到st...

27230
来自专栏新智元

吴恩达计算机视觉课程12大要点,如何赢得计算机视觉竞赛

来源:towardsdatascience.com 编译:马文 【新智元导读】本文作者最近在Coursera上完成了吴恩达的深度学习系列课程的第四门课“卷积神经...

373130
来自专栏机器之心

戳穿泡沫:对「信息瓶颈」理论的批判性分析

44680

扫码关注云+社区

领取腾讯云代金券