专栏首页新智元玩转谷歌物体识别API,用TensorFlow和OpenCV打造实时识别应用

玩转谷歌物体识别API,用TensorFlow和OpenCV打造实时识别应用

【新智元导读】谷歌 TensorFlow 的 Object Detection API 刚刚开源, Pivotal Labs 的 Dat Tran 就做出了对象识别的应用。

TensorFlow’s (TF) 的 Object Detection API 刚刚开源,就有人利用它做出了对象识别的应用。评论的口径很一致:这么快就部署出来了,太牛了!让我们看看他是如何操作的。有请 Pivotal Labs 的 Dat Tran:

本文将告诉大家如何使用 TensorFlow 新的 Object Detection API 和OpenCV(Python3.5)来开发你自己的实时对象识别的app,着重介绍了其中的难点。

我在使用这个 app 随机识别桌子上的东西:)

谷歌刚刚发布了新的 TensorFlow 对象识别(Object Detection)API。第一版发布包括:

  • 一些预训练模型(特别是一些可以运行在移动终端的轻量模型)
  • 配有一个模型的 Jupyter notebook 示例
  • 一些可用于模型再训练的很方便的脚本,比如,在你自己的数据集上。

首先,我们看一下 TensorFlow 的 models repo,再看看他们发布的 notebook。

它基本上用预训练模型把对象识别从头到尾走了一遍。在示例中,他们用了“ SSD with Mobilenet”模型,不过你也可以在他们称为“TensorFlow detection model zoo”的地方下载其他预训练模型。顺便说一句,这些模型在 COCO 数据集上训练,随不同的模型速度(慢、中、快)和模型性能(mAP-平均精度)而不同。

接着我照示例跑了一下。示例已经写得很清楚了,它无非是做了以下几件事:

1.导入TensorFlow 、PIL 这样的package;

2.定义一些变量,比如级数、模型名称等等;

3.下载冻结模型(.pb-protobuf),load 到 memory;

4.load一些辅助代码,比如标签翻译索引;

5.对两张测试图像的识别代码。

注意:跑示例之前,留意一下 setup note。需要特别注意 protobuf compilation:

# Fromtensorflow/models/

protocobject_detection/protos/*.proto --python_out=.

不运行这个命令,示例就无效。

接着我相应调整了他们的代码:

  • 删掉了模型下载的部分
  • PIL 也用不着了,因为 OpenCV 里的视频流已经是 numpy array 了(PIL 很占资源)
  • 不保留 TensorFLow session 的 with 语句,同样是因为太占资源,尤其是每个视频流之后 session 需要启动的时候。

然后,我将 OpenCV 连接到了我自己的网络摄像头。有很多关于这一步的示例,官方文件里也有。这里我就不详述了。最有趣的部分是我为了提升 app 性能做的优化。对我来说,就是对 fps(每秒帧数)的追求。

总的来说,OpenCV 上很多文件的直接应用效果并不是很好,例如,OpenCV 的很多功能都是 I/O 受限的。因此,我不得不想出几种方法来解决这个问题:

从网络摄像头读取帧会引发大量输入输出。我最初的想法是把这部分直接移植到另外一个Python multiprocessing 中,但这个方法并不奏效。Stackoverflow 上对这个问题有所解释,不过我还没有深究过。幸运的是,我从 Adrian Rosebrock 的网站 pyimagesearch 上找到了一个非常好的方法,即利用 threading,大大提高了fps。如果你想了解 multiprocessing 和 threading 的区别,Stackoverflow 上有非常好的回答。

每次应用程序开始时,下载固化好的模型都需要耗费大量内存。我已经在每次运行中都使用了一个 TF session,但速度仍然非常慢。我是如何解决这个问题的呢?方法非常简单。我使用 multiprocessing library 把目标检测部分的庞大工作量移到多个进程中。应用之初速度还会有些慢,因为每个进程都需要下载模型到内存并启动一个TF session,但之后,多进程同时工作的效率就显现出来了。

Demo地址:https://asciinema.org/a/125852

减小视频流中帧的宽度和高度也能大量提升 fps。

注意:如果你和我一样,用的是 Mac OSX 和 OpenCV 3.1,OpenCV 的 VideoCapture 过一段时间就会 crash 一次。可以试着用回到 OpenCV 3.0。

赶快自己去试试吧,上手确实不难。接下来我想做的是用这个 API 训练我自己的数据集,还想把预训练的模型用在我设想的其他 app 上。fps rate 还不够优化。OpenCV 里还有不少瓶颈,目前我没有什么好办法,但有一些替代方案,比如用 WebRTC,可惜它是 web-based。另外,我也希望使用称为 async 的 asynchronous 方法来提升我的 fps rate。敬请期待吧!

原文地址:https://medium.com/towards-data-science/building-a-real-time-object-recognition-app-with-tensorflow-and-opencv-b7a2b4ebdc32

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-06-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Nature:算法验证新历史,丝绸之路或早2500年出现

    【新智元导读】 研究人员在他们的论文中写道,新的算法在“在城市中心之间经济的网络和移动性,与旅行的便利具有一致性的低地地区”是十分有效的。 新的研究改变了我...

    新智元
  • 人工智能会带来一个没有app的世界吗?

    ? 现在很少有人智能手机中装满了app——并且这样的人也变得越来越少。App正在逐渐衰落。根据Comscore的分析师,大部分人(65%)根本不下载app,只...

    新智元
  • 机器学习里,数学究竟多重要?

    【新智元导读】本文的主要目的是提供资源,给出有关机器学习所需的数学上面的建议。数学初学者无需沮丧,因为初学机器学习,并不需要先学好大量的数学知识才能开始。正如这...

    新智元
  • kNN算法——帮你找到身边最相近的人

    新生开学了,部分大学按照兴趣分配室友的新闻占据了头条,这其中涉及到机器学习算法的应用。此外,新生进入大学后,可能至少参加几个学生组织或社团。社团是根据学生的兴趣...

    用户3578099
  • simhash文章排重

      提升产品体验,节省用户感知度。——想想,如果看到一堆相似性很高的新闻,对于用户的留存会有很大的影响。

    大道七哥
  • 两个超详细的python爬虫技能树(思维导图)

    在python微信群里说过会分享看过的两个python爬虫技能树(思维导图),这回算是填个坑。

    古柳_DesertsX
  • 达观数据Docker 集群部署实例

    1 docker简介 Docker 是个划时代的开源项目,它彻底释放了计算虚拟化的威力,极大提高了应用的运行效率,降低了云计算资源供应的成本! 使用 Dock...

    达观数据
  • docker中启动所有的容器命令

    吟风者
  • docker创建进入删除容器资源限制

    陈雷雷
  • Docker 19.03 设置Docker Hub镜像地址

    在 Docker 19.03 中,通过修改/etc/default/docker文件:

    TLingC

扫码关注云+社区

领取腾讯云代金券