谷歌开放的TensorFlow Object Detection API 效果如何?对业界有什么影响?

熟悉TensorFlow的人都知道,tf在Github上的主页是: https://github.com/tensorflow , 然后这个主页下又有两个比较重要的repo(看star数就知道了),分别是TensorFlow的源代码repo:tensorflow/tensorflow,还有一个tensorflow/models。

后者tensorflow/models是Google官方用TensorFlow做的各种各样的模型,相当于示例代码,比如用于图像分类的Slim,深度文字OCR,以及用于NLP任务的句法分析模型syntaxnet,Seq2Seq with Attention等等等等。这次公布的Object Detection API同样是放在了tensorflow/models里。

再来说下这次公布的代码的实现方式。首先,对于目标检测这个任务来说,前面必须有一个像样的ImageNet图像分类模型来充当所谓的特征提取(Feature Extraction)层,比如VGG16、ResNet等网络结构。TensorFlow官方实现这些网络结构的项目是TensorFlow Slim,而这次公布的Object Detection API正是基于Slim的。Slim这个库公布的时间较早,不仅收录了AlexNet、VGG16、VGG19、Inception、ResNet这些比较经典的耳熟能详的卷积网络模型,还有Google自己搞的Inception-Resnet,MobileNet等。

我们在TensorFlow Object Detection API的官方安装指南中,可以看到这样一句代码:

很显然,这就是钦点用Slim作特征抽取了。

另外,以Faster RCNN为例,之前在github上,可以找到各种各样非官方的TensorFlow实现,但是这些实现使用的特征抽取层都不是Slim,而是五花八门的什么都有,另外一方面实现代码大量copy自原始的caffe的实现,这次公布的代码里已经一点也找不到原始caffe实现的痕迹了。

最后,原来非官方的Object Detection实现的质量参差不齐,去年我调过一个Faster RCNN,过程比较痛苦,在运行之前疯狂debug了三天才勉强跑了起来。这次Google官方公布的Object Detection API别的不说,代码质量肯定是过的去的,因此以后应该不会有人再造TensorFlow下Faster RCNN、R-FCN、SSD的轮子了。

说完了代码,再简单来说下公布的模型。主要公布了5个在COCO上训练的网络。网络结构分别是SSD+MobileNet、SSD+Inception、R-FCN+ResNet101、Faster RCNN+ResNet101、Faster RCNN+Inception_ResNet。后期应该还会有更多的模型加入进来。

最后,给新手朋友提供一个可以跑出官方Demo效果的小教程,非常简单,用5分钟的时间就可以跑一遍感受一下,只要安装了TensorFlow就可以,有没有GPU都无所谓。

安装或升级protoc

首先需要安装或升级protoc,不然在后面会无法编译。

安装/升级的方法是去protobuf的Release界面:google/protobuf,下载对应的已经编译好的protoc。

比如我是64位的ubuntu,那么就下载protoc-3.3.0-linux-x86_64.zip。下载解压后会有一个protoc二进制文件,覆盖到对应目录即可(如果不放心的可以用cp /usr/bin/protoc ~/protoc_bak先备份一下):

下载代码并编译

下载tensorflow/models的代码:

进入到models文件夹,编译Object Detection API的代码:

运行notebook demo

在models文件夹下运行:

访问文件夹object_detection,运行object_detection_tutorial.ipynb:

依次shift+enter运行到底就行了。这个Demo会自动下载并执行最小最快的模型ssd+mobilenet。

最后的检测效果,一张是汪星人图片:

还有一张是海滩图片:

使用自己的图片做检测

如果要检测自己的图片,那么更改TEST_IMAGE_PATHS为自己的图片路径就可以了。这里我随便选了一张COCO数据集中的图片:

检测结果:

使用其他模型做检测

一共公布了5个模型,上面我们只是用最简单的ssd + mobilenet模型做了检测,如何使用其他模型呢?找到Tensorflow detection model zoo,根据里面模型的下载地址,我们只要分别把MODEL_NAME修改为以下的值,就可以下载并执行对应的模型了:

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 完全云端运行:使用谷歌CoLaboratory训练神经网络

2939
来自专栏磐创AI技术团队的专栏

ChatGirl 一个基于 TensorFlow Seq2Seq 模型的聊天机器人

简介 ? 还在开发中,它工作的效果还不好。但是你可以直接训练,并且运行。 包含预处理过的 twitter 英文数据集,训练,运行,工具代码,可以运行但是效果有待...

3128
来自专栏人工智能

完全云端运行:使用谷歌CoLaboratory训练神经网络

选自Medium 作者:Sagar Howal 机器之心编译 参与:路雪 Colaboratory 是一个 Google 研究项目,旨在帮助传播机器学习培训和研...

5408
来自专栏机器学习算法与理论

调用Dlib库进行人脸关键点标记

       昨天调试了人脸识别(classifier_webcam)这个程序,效果不错,响应速度也挺快。按照http://blog.csdn.net/u011...

3049
来自专栏数据派THU

清华大学发布珠算:一个用于生成模型的Python库

来源:GitHub 编译:机器之心 参与:吴攀 本文长度为1200字,建议阅读4分钟 本文为你介绍「珠算(ZhuSuan)」这一软件库的介绍文档。 5月27-2...

1755
来自专栏计算机视觉战队

实战——目标检测与识别

最近总是有很多入门的朋友问我,我进入计算机视觉这个领域难不难?是不是要学习很多知识?到底哪个方向比较好?。。。。。这些问题其实我也不好回答他们,只能衷心告诉他...

2705
来自专栏ATYUN订阅号

C-SATS工程副总裁教你如何用TensorFlow分类图像 part1

最近在深度学习算法和硬件性能方面的最新进展使研究人员和公司在图像识别,语音识别,推荐引擎和机器翻译等领域取得了巨大的进步。六年前,首次机器在视觉模式识别方面的表...

3259
来自专栏机器之心

资源 | XGBoost 中文文档开放:上去就是一把梭

27111
来自专栏悦思悦读

数据挖掘: R, Python,Machine Learning,一起学起来!

大数据概念的火爆带动了相关工具方法的流行。大数据工具中,R和Python以其开源、免费、简单易用、大量算法库和社区支持等特质赢得了一众人心。机器学习则以其高大上...

3378
来自专栏BestSDK

看完这个,不用写代码就能实现深度学习了

2006年,机器学习界泰斗Hinton,在Science上发表了一篇使用深度神经网络进行维数约简的论文 ,自此,神经网络再次走进人们的视野,进而引发了一场深度学...

3295

扫描关注云+社区