【实践操作】:六步教你如何用开源框架Tensorflow对象检测API构建一个玩具检测器

TensorFlow对象检测API是一个建立在TensorFlow之上的开源框架,可以轻松构建,训练和部署对象检测模型。

到目前为止,API的性能给我留下了深刻的印象。在这篇文章中,我将API的对象设定为一个可以运动的玩具。本文将用六个步骤突出API的性能并教你如何构建一个玩具探测器,你也可以根据这六个步骤扩展与实践你想要构建的任何单个或多个对象检测器。

TensorFlow玩具检测器

代码在我的GitHub repo上。地址:https://github.com/priya-dwivedi/Deep-Learning/tree/master/tensorflow_toy_detector

第一步:收集数据

第一步是为你的项目收集图像,你可以从谷歌上下载。在我的例子中,我创建了一个飞机玩具的视频,并使用Opencv从视频中提取图像。这节省了我很多时间。我确保图像是从多个角度拍摄的。你也可以随机改变一些图像的亮度,这样探测器就可以在不同的光线条件下工作了。大致来说,你需要提供总共100-150张图片就足够了。参见下面的一些示例图片:

玩具的不同角度

第二步:为图像添加注释

我使用Labelimg来注释图像,它是一个图形化的图像注释工具。

安装地址:https://github.com/tzutalin/labelImg

这是一个非常有用的工具,注释是在Pascal VOC的格式中创建的,稍后你可以看到这个格式的用处。Labelimg是用Python编写的,并使用Qt作为接口。我使用了Python3 + Qt5这个组合来操作,事实证明是没有问题的(请参见带注释的图像示例)。从本质上说,我们为对象识别x和y的最大值与最小值,并将其传递给模型以及用于训练的图像。

使用labelimg为玩具添加注释

第三步:创建TFR数据集

Tensorflow API想让数据集最终变为TFRecord文件格式。这一步骤可能是最棘手的部分。但是,Tensorflow提供了一些方便的脚本,以帮助你启动- create_pascal_tf_record.py和create_pet_tf_record.py。由于labelimg已经以正确的格式创建了注释,所以我使用最小编辑的create_pet_tf_record.py。同时,这个脚本随机抽取30%的数据并创建了一个验证TFR文件。

需要注意的是,你还需要创建一个label.pbtxt文件,用于将标签名转换为一个数字id。这个过程非常简单:

item {
 id: 1
 name: ‘toy’
}

第四步:创建一个模型配置文件

一旦创建了TFR数据集,那么首先你需要确定你是否将使用现有的模型,并对其进行微调,或者从头开始构建。我强烈推荐使用现有的模型,因为卷积神经网络(CNNs)所了解的大多数特性通常都是对象不可知论的,而对现有的模型进行微调通常是一个简单而准确的过程。但是请注意,如果你决定从头开始构建,你将需要150多个图像,还要花费好几天时间来训练。该API提供了5种不同的模型,可以在执行速度和放置包围盒的精度之间进行权衡。见下表:

TensorFlow检测模型

对于这个项目,我决定使用在coco数据集上训练的faster_rcnn_resnet101。如果你想了解更多关于RCNN的模型的内容,请移步→https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4

Tensorflow提供了几个示例配置文件,以开始创建。

示例配置文件地址:https://github.com/tensorflow/models/tree/master/research/object_detection/samples/configs

使用faster_rcnn_resnet101_coco文件,并更新任何需要在文件中配置的路径。记住,不要忘记更新类的个数。

第五步:训练模型

终于!所有困难的(和无聊的)部分都完成了,我们可以开始训练模型了。因为我有一个可以合理使用的GPU,所以我决定在本地进行训练。然而,你也可以在云上进行训练。

你可以同时在两个独立的终端上启动训练工作和评估工作。并启动Tensorboard来监控性能。经过2-3个小时的训练后,可以看到总损失下降到0.077,精确到0.99。通过查看Tensorboard中的图像,我们可以看到这个模型很快就变得准确了。

模型很快就能得到准确的数据

第六步:测试模型

为了测试这个模型,我们首先选择一个模型检查点(通常是最新的),然后导出到一个冻结的推理图中。这个脚本也可以在我的github上找到。我在iPhone上录制的一段新视频中测试了这个模型。在我的前一篇文章中,我使用Python moviepy库将视频解析成帧,然后在每个帧上运行对象检测器,并将结果返回到视频中。

文章地址:https://medium.com/towards-data-science/is-google-tensorflow-object-detection-api-the-easiest-way-to-implement-image-recognition-a8bd1f500ea0

接下来的步骤

  • 在测试过程中,我发现Faster RCNN模型有点慢。接下来,我将探索使用最快的模型-SSD mobilenet,看看是否有明显的准确性下降的问题。
  • 对于这个模型,我只是使用了faster_rcnn_resnet101_coco的模型配置文件中的默认参数。如果它们能被调整以获得更好的性能,那就值得探索了。
  • 通过更多的努力,这个过程可以扩展到其他类别。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【Python语言】Scikit-learn 快速入门

环境 ubuntu 12.04, 64 bits python 2.7 sklearn 0.14 准备 sklearn 快速入门的官方文档7。这个文档主要描述机...

2826
来自专栏新智元

【前沿】TensorFlow Pytorch Keras代码实现深度学习大神Hinton NIPS2017 Capsule论文

【新智元导读】10月26日,深度学习元老Hinton的NIPS2017 Capsule论文《Dynamic Routing Between Capsules》终...

3707
来自专栏机器之心

资源 | 微软开源MMdnn:实现多个框架之间的模型转换

选自GitHub 作者:Kit CHEN等 机器之心编译 参与:路雪、思源 近日,微软开源 MMdnn,可用于转换、可视化和诊断深度神经网络模型的全面、跨框架解...

3446
来自专栏机器学习算法与Python学习

TensorFlow的安装与初步了解

今天终于有时间一探滕三福了,TensorFlow(腾三福)是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tenso...

2846
来自专栏机器之心

资源 | DMLC团队发布GluonCV和GluonNLP:两种简单易用的DL工具箱

选自 Gluon 机器之心编译 参与:思源、李亚洲 近日,DMLC 发布了简单易用的深度学习工具箱 GluonCV 和 GluonNLP,它们分别为计算机视觉和...

2828
来自专栏PPV课数据科学社区

R语言中不能进行深度学习?

摘要: R语言现在能也进行深度学习了,而且和python一样好,快来试一试吧。 众所周知,R语言是统计分析最好用的语言。但在Keras和TensorFlow的帮...

3979
来自专栏AI研习社

PyTorch 重大更新,0.4.0 版本支持 Windows 系统

AI 研习社最新消息,PyTorch 官方发布 0.4.0 版本,该版本的 PyTorch 有多项重大更新,其中最重要的改进是支持 Window 系统。

1344
来自专栏AI科技大本营的专栏

10行代码实现目标检测,请收下这份教程

作为人工智能的一个重要领域,计算机视觉是一门可以识别并理解图像和场景的计算机及软件系统科学。该领域主要包括图像识别,目标检测,图像生成,图像超分辨率等多个方向。...

741
来自专栏新智元

【Science】破解密码“AlphaGo”诞生,训练Gan破解27%LinkedIn测试集密码

【新智元导读】一项新的研究旨在使用生成对抗网络(GAN) 来加快密码破解的速度。斯蒂文斯理工学院的研究人员用类似“AlphaGo”的方法,利用超过 4300 万...

2726
来自专栏ATYUN订阅号

【干货】圣诞老人是否真实存在?训练Tensorflow的对象检测API能够告诉你答案

背景:最近我们看到了一篇文章,关于如何用于你自己的数据集,训练Tensorflow的对象检测API。这篇文章让我们对对象检测产生了关注,正巧圣诞节来临,我们打算...

2978

扫码关注云+社区