资源 | 图森未来开源:Mask R-CNN的完整MXNet复现

机器之心经授权发布

来源:图森未来

当地时间 10 月 22 日,计算机视觉国际顶级会议 ICCV 2017 公布了获奖论文。Facebook AI 研究员何恺明获得最佳论文奖,同时他也是最佳学生论文的作者之一。这篇文章是国内自动驾驶创业公司图森未来对最佳论文《Mask R-CNN》的完整复现,并将其开源到了Github 上。

对于 CV 圈的小伙伴们来说,这两天最大的新闻一定是何恺明大神在 ICCV 上拿下了双 best paper 啦!在各种社交平台上,大家纷纷表示「神就是神,非吾等凡人能比」,还有小伙伴直言「人家的 best paper 都快比我的 paper 多了」……

当然,大家的种种「自愧不如」,其实更多的是在表达对恺明大神的崇拜以及对最优秀的学术研究人员表达敬意。与此同时,很多从业者更关心的问题是:什么时候能看到开源代码?

图森未来也由衷地恭喜恺明大神,并且为他所取得的成就而感到振奋。而且这一次,除了通过社交媒体平台为恺明大神打 call 之外,图森未来还做了一件实实在在的事情——完整复现何恺明大神的论文结果(Mask R-CNN 和 Feature Pyramid Network),并将对应代码开源给大家!这也是第一份能够完整复现何恺明大神论文结果的开源代码。

论文中用于实例分割的 Mask R-CNN 框架

Github 项目地址:https://github.com/TuSimple/mx-maskrcnn

MX Mask R-CNN

这是一份对 Mask R-CNN 的实现。该实现的 repository 主要是基于 Faster RCNN 的 mx-rcnn 实现。

主要结果

Cityscapes

  • 主干: Resnet-50-FPN

COCO

马上放出,请保持关注。

系统要求

我们是在以下配置上测试的代码:

  • Ubuntu 16.04, Python 2.7
  • numpy(1.12.1), cv2(2.4.9), PIL(4.3), matplotlib(2.1.0), cython(0.26.1), easydict

训练准备

1. 下载 Cityscapes 数据 (gtFine_trainvaltest.zip, leftImg8bit_trainvaltest.zip). 提取到 'data/cityscape/'。文件夹如下:

2. 下载 Resnet-50 预训练模型

bash scripts/download_res50.sh

3. 使用 ROIAlign 运算符构建MXNet

cp rcnn/CXX_OP/* incubator-mxnet/src/operator/

从源代码建立 MXNet 请参考教程:https://mxnet.incubator.apache.org/get_started/build_from_source.html

4. 构建相关 cython 代码

make

5. 开始训练

bash scripts/train_alternate.sh

评估准备

1. 准备 Cityscapes 评估脚本

bash scripts/download_cityscapescripts.sh

2. Eval

bash scripts/eval.sh

Demo

1. 模型可以从以下链接中下载,请将其放置在 model 文件夹内。

  • Dropbox 链接:https://www.dropbox.com/s/zidcbbt7apwg3z6/final-0000.params?dl=0
  • 百度云链接:https://pan.baidu.com/s/1o8n4VMU

2. 请确认你已经把 cityscapes 数据放置在「data/cityscapes」文件夹中。

bash scripts/demo.sh

参考

Tianqi Chen, Mu Li, Yutian Li, Min Lin, Naiyan Wang, Minjie Wang, Tianjun Xiao, Bing Xu, Chiyuan Zhang, and Zheng Zhang. MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. In Neural Information Processing Systems, Workshop on Machine Learning Systems, 2015

Ross Girshick. "Fast R-CNN." In Proceedings of the IEEE International Conference on Computer Vision, 2015.

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. "Faster R-CNN: Towards real-time object detection with region proposal networks." In IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016.

Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. "Feature Pyramid Networks for Object Detection." In Computer Vision and Pattern Recognition, IEEE Conference on, 2017.

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick. "Mask R-CNN." In Proceedings of the IEEE International Conference on Computer Vision, 2017.

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. "Caffe: Convolutional architecture for fast feature embedding." In Proceedings of the ACM International Conference on Multimedia, 2014.

Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. "ImageNet: A large-scale hierarchical image database." In Computer Vision and Pattern Recognition, IEEE Conference on, 2009.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. "Deep Residual Learning for Image Recognition". In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.

Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele. "The Cityscapes Dataset for Semantic Urban Scene Understanding." In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.

本文为机器之心经授权转载,转载请联系原公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-10-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

为什么我的CNN石乐志?我只是平移了一下图像而已

一般来说,图像经过小小的平移和变形之后,人类还是信任CNN能够把它们泛化,识别出里面的物体。

1562
来自专栏ArrayZoneYour的专栏

TensorFlow强化学习入门(0)——Q-Learning的查找表实现和神经网络实现

在我这系列的强化学习教程中,我们将探索强化学习大家族中的Q-Learning算法,它和我们后面的教程(1-3)中基于策略的算法有一些差异。在本节中,我们先放下复...

2.5K9
来自专栏机器学习算法工程师

深入浅出——基于密度的聚类方法

作者 祝烨 编辑 (没脸) “The observation of and the search forsimilarities an...

3728
来自专栏计算机视觉战队

人脸检测与识别的趋势和分析

现在打开谷*公司的搜索器,输入 “face detect”,估计大家都能够想到,都是五花八门的大牛文章,我是羡慕啊!(因为里面没有我的一篇,我们实验室的原因,至...

38412
来自专栏大数据文摘

机器学习算法一览(附python和R代码)

25214
来自专栏专知

【干货】GAN调研:多极扩展(跨域和条件的GAN扩展模型调研)

本文授权转载于知乎专栏作者:陈乐天 https://zhuanlan.zhihu.com/p/32103958 【摘要】 本文关注跨域(cross-domain...

3607
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

《Single Image Haze Removal Using Dark Channel Prior》一文中图像去雾算法的原理、实现、效果(速度可实时)

      最新的效果见 :http://video.sina.com.cn/v/b/124538950-1254492273.html         可处理...

86410
来自专栏AI研习社

深度学习如何入门?

关于深度学习,网上的资料很多,不过貌似大部分都不太适合初学者。 这里有几个原因: 1. 深度学习确实需要一定的数学基础。如果不用深入浅出地方法讲,有些读者就会有...

3276
来自专栏人工智能LeadAI

通俗易懂丨深度学习如何入门

? 作者:Jacky Yang(知乎) 关于深度学习,网上的资料很多,不过貌似大部分都不太适合初学者。 这里有几个原因: 1.深度学习确实需要一定的数学基础...

34410
来自专栏Petrichor的专栏

论文阅读: YOLOv2

本文获得了CVPR 2017 Best Paper Honorable Mention:

2904

扫码关注云+社区

领取腾讯云代金券