专栏首页目标检测和深度学习VALSE 2018年度进展报告 | 物体检测与识别

VALSE 2018年度进展报告 | 物体检测与识别

2018年4月下旬在大连举办的VALSE 2018大会上,微软亚洲研究院的代老师介绍了物体检测与识别最近一年的进展和趋势。

以下内容是在PPT的基础上进行的整理,并加入了个人理解部分,不能完全代表讲者本身观点。

研究背景

简单介绍一下物体检测与识别的研究背景,给定如下一张图片,我们的目的是检测到并识别图片中物体的类别和位置,如下图所示,位置一般用bounding box表示,类别旁边数字表示置信度或概率。

算法流程

物体检测与识别有两种流程:一阶detector和二阶detector。

两个稍有不同,如下图所示。给定一张图片,首先提取特征,然后把图片分成很多滑动窗口,对于一阶detector,这时候的窗口是带类别信息的。对于二阶detector,滑动窗口不带类别信息,需要在region内提取特征并识别,然后输出region proposal,一般几十个到几百个,并且带有类别信息。最后对这些bounding box去重就得到了最终结果。

年度学术进展

主要是从CVPR2017到现在的学术进展。

1

Image feature extractor

最近的学术进展可以更好的处理多种物体的不同尺度,尤其是以前很难处理好的小物体。主要的代表性工作如下所示。这里插一句,介绍下多尺度图像金字塔方面一个比较有效的进展,我们以前是对图像直接做金字塔,最近的一个新工作的思想是:把图像中尺寸大的物体在低分辨率下训练,尺寸小物体在高分辨率下训练,从实验结果来看,效果不错。

另外一个就是空间几何形变进行建模。几何形变非常常见,如下是代老师组在这方面的工作。主要思想是:在卷积bin加上offset,这个offset可以通过端到端训练得到,不需要监督信息,这样可以动态调整field of view,更好的动态建模。

2

Sliding window classification

从算法流程,我们看到,我们会产生大量的bounding box,如何有效的对成千上万的bounding box进行既快速又准确的分类呢?

主要两种方式。一种是基于anchor的方法,最早是Google的工作。最近facebook做的focal loss 的工作比较实用。基本思想是:把anchor弄得更稠密,可以近乎完全穷举整个空间,这样之前稀疏下采样也变成了稠密下采样,用来训练的数据变多了。

另外一种方式是基于点的方法。基本思想是把corner 点以某种方式组合为bounding box。这两种方法代表论文如下。

3

Region feature extractor

最近一个主要的进展是:对四个特征点做双线性插值,这样做有两个好处。第一个是亚像素级精度的特征点,可以区分出相距非常近的bounding box;第二是能够得到bin offset的梯度,这样可以训练offset参数。

此外,还有一个进展,之前大家都用固定的bin,比如3x3或7x7,那么问题来了,这样的做法是最优的吗?下图中的工作就是使用了自适应的bin,通过学习来得到attention的位置,和bin的规格无关。

4

Region recognition

Light-head R-CNN在降低计算量方面是一个比较有代表性的工作。另外,以前的识别都是对每一个object instance分别识别,最近的几个工作是可以对instance之间的关系进行建模,更有效,代表性的是Relation Network和李飞飞组的Iterative Visual Reasoning。还有一个思路就是把recognition的 pipeline拉的更长一些,形成多级反馈,代表性工作就是Cascade R-CNN和Chained Cascade Network。

5

Duplicate removal

去重方面以前的工作都是hand-crafed的方法,最近一年的新的工作是可以使用学习的方法来替代,下面是几个有代表性的工作。

6

其他方面

还有一些其他的进展。比如可以处理更多的类型的YOLO v2、R-FCN-3000。还有就是可以直接用COCO,不再依赖imageNet预训练了。

本文分享自微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV),作者:sixgod

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    朱晓霞
  • tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。 OCR(Opti...

    朱晓霞
  • SCI论文快速翻译,免费无限制!OCR识别,阅读文献必备!

    科研人员在阅读外文文献时,经常会碰到看不懂的专业词汇或语句,需要将其复制到在线词典翻译。

    朱晓霞
  • 云端(服务器)车牌识别软件

    随着科技技术的发展,人工智能的技术越来越优化,软硬件的算法和技术要求也越来越高,其中,TH-OCR算法在各个行业中有极其重要的作用,OCR识别算法-车牌识别在各...

    ocr识别算法专家
  • 数据科学家需要了解的45个回归问题测试题(附答案)

    大数据文摘
  • 最好用的ocr识别工具,没有之一!

    小编从来都是雨露均沾,让mac系统的小伙伴酸了那么久,今天必须安排一个神器——OCR文字识别工具。

    BigYoung小站
  • ​其他的几个应用层协议

    中文全称是文件传输协议,其实本质上来说,HTTP协议也属于文件传输协议,但两者有着巨大的差异。FTP描述的场景:

    naget
  • PS笔记3

    单位: 像素每英寸(像素/英寸)  pixcel per inch       PPI

    py3study
  • 跟你想的不同!Look-alike用户行为模拟建模背后的科学分析

    译者注: Look-alike模型是我们关心的领域。 做数字营销的朋友们,希望打破流量的铁律——随着流量数量的增大,流量的质量必然会逐步下降。流量质量下降的原因...

    iCDO互联网数据官
  • python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFrame

    apple开源机器学习框架turicreate中的SFrame,是一种新形态的dataframe,作为之前热爱过R语言的dataframe的玩家来看,还不够简洁...

    素质

扫码关注云+社区

领取腾讯云代金券