VALSE 2018年度进展报告 | 物体检测与识别

2018年4月下旬在大连举办的VALSE 2018大会上,微软亚洲研究院的代老师介绍了物体检测与识别最近一年的进展和趋势。

以下内容是在PPT的基础上进行的整理,并加入了个人理解部分,不能完全代表讲者本身观点。

研究背景

简单介绍一下物体检测与识别的研究背景,给定如下一张图片,我们的目的是检测到并识别图片中物体的类别和位置,如下图所示,位置一般用bounding box表示,类别旁边数字表示置信度或概率。

算法流程

物体检测与识别有两种流程:一阶detector和二阶detector。

两个稍有不同,如下图所示。给定一张图片,首先提取特征,然后把图片分成很多滑动窗口,对于一阶detector,这时候的窗口是带类别信息的。对于二阶detector,滑动窗口不带类别信息,需要在region内提取特征并识别,然后输出region proposal,一般几十个到几百个,并且带有类别信息。最后对这些bounding box去重就得到了最终结果。

年度学术进展

主要是从CVPR2017到现在的学术进展。

1

Image feature extractor

最近的学术进展可以更好的处理多种物体的不同尺度,尤其是以前很难处理好的小物体。主要的代表性工作如下所示。这里插一句,介绍下多尺度图像金字塔方面一个比较有效的进展,我们以前是对图像直接做金字塔,最近的一个新工作的思想是:把图像中尺寸大的物体在低分辨率下训练,尺寸小物体在高分辨率下训练,从实验结果来看,效果不错。

另外一个就是空间几何形变进行建模。几何形变非常常见,如下是代老师组在这方面的工作。主要思想是:在卷积bin加上offset,这个offset可以通过端到端训练得到,不需要监督信息,这样可以动态调整field of view,更好的动态建模。

2

Sliding window classification

从算法流程,我们看到,我们会产生大量的bounding box,如何有效的对成千上万的bounding box进行既快速又准确的分类呢?

主要两种方式。一种是基于anchor的方法,最早是Google的工作。最近facebook做的focal loss 的工作比较实用。基本思想是:把anchor弄得更稠密,可以近乎完全穷举整个空间,这样之前稀疏下采样也变成了稠密下采样,用来训练的数据变多了。

另外一种方式是基于点的方法。基本思想是把corner 点以某种方式组合为bounding box。这两种方法代表论文如下。

3

Region feature extractor

最近一个主要的进展是:对四个特征点做双线性插值,这样做有两个好处。第一个是亚像素级精度的特征点,可以区分出相距非常近的bounding box;第二是能够得到bin offset的梯度,这样可以训练offset参数。

此外,还有一个进展,之前大家都用固定的bin,比如3x3或7x7,那么问题来了,这样的做法是最优的吗?下图中的工作就是使用了自适应的bin,通过学习来得到attention的位置,和bin的规格无关。

4

Region recognition

Light-head R-CNN在降低计算量方面是一个比较有代表性的工作。另外,以前的识别都是对每一个object instance分别识别,最近的几个工作是可以对instance之间的关系进行建模,更有效,代表性的是Relation Network和李飞飞组的Iterative Visual Reasoning。还有一个思路就是把recognition的 pipeline拉的更长一些,形成多级反馈,代表性工作就是Cascade R-CNN和Chained Cascade Network。

5

Duplicate removal

去重方面以前的工作都是hand-crafed的方法,最近一年的新的工作是可以使用学习的方法来替代,下面是几个有代表性的工作。

6

其他方面

还有一些其他的进展。比如可以处理更多的类型的YOLO v2、R-FCN-3000。还有就是可以直接用COCO,不再依赖imageNet预训练了。

原文发布于微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文发表时间:2018-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

GAN如此简单的PyTorch实现,一张脸生成72种表情(附代码)

【新智元导读】随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHub热议的新款GANimation,却将此技术提...

32610
来自专栏机器学习算法与Python学习

推荐 | 掌握这12条经验,对理解机器学习至关重要

华盛顿大学 Pedro Domingos 教授的“A Few Useful Things to Know about Machine Learning”这篇论文...

14000
来自专栏新智元

【深度学习模型哪个最像人脑?】MIT等人工神经网络评分系统,DenseNet实力夺冠!

虽然ANN发展到现在也无法完全模拟生物大脑,但是技术是一直在进步的。那么问题来了:

23750
来自专栏AI科技大本营的专栏

AI实践精选:通过图像与文本对电子商务产品进行分类

Christopher Bonnett 来自Summer 2016 New York Data Science Fellowship ,后为Insight中的一...

50280
来自专栏机器之心

深度 | Pedro Domingos总结机器学习研究的12个宝贵经验

369100
来自专栏机器之心

人人都能读懂的无监督学习:什么是聚类和降维?

选自Medium 作者:Vishal Maini 机器之心编译 参与:Panda 机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学...

321100
来自专栏PPV课数据科学社区

推荐 | 机器学习中的这12条经验,希望对你有所帮助

源 | 全球人工智能 华盛顿大学 Pedro Domingos 教授的“A Few Useful Things to Know about Machine Le...

31960
来自专栏数据派THU

独家|一文解读合成数据在机器学习技术下的表现

本文将通过介绍两个分布模型,并运用它们到合成数据过程中,来分析合成数据在不同机器学习技术下的表现。

12840
来自专栏translation

使用线性回归,聚类,还是决策树?

本文为译文。原文链接https://dzone.com/articles/decision-trees-vs-clustering-algorithms-vs-...

42460
来自专栏数据分析

[机器学习]-[数据预处理]-中心化 缩放 KNN(二)

上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1。 真实结果 ...

35960

扫码关注云+社区

领取腾讯云代金券