谷歌 TensorFlow 物理检测 API,目前最好的物体识别方案?

作者 | Priya Dwivedi

编译 | 聂震坤

用大数据干大事!

目前有很多种图像识别的方案,而 Google 近日最近发布了其最新的 Tensorflow 物理检测接口(Object Detection API),使计算机视觉无处不在。Google 的产品通常都是黑科技,所以笔者决定尝试一下这个新的 API,并用 YouTube 上的一个视频来进行检测。如下:

完整的代码可以在我的 Github 上找到:https://github.com/priya-dwivedi/Deep-Learning/blob/master/Object_Detection_Tensorflow_API.ipynb。

所以,它的的体验到底如何?让我们先从理解 API 开始。

了解 API

此 API 经过 COCO 数据库训练。COCO 数据库拥有三十万张包括九十大类的图像集合,一部分类别如下:

API 提供了五种不同的模式来在识别速度与准确率中进行协调,详情见下表:

使用 API

我决定使用最轻量化的模块(ssd_mobilenet)。主要步骤如下:

  1. 下载冻结模型(.pb——protobuf)并将其导入内存
  2. 使用內建代码来导入标签,分类,可视化效果工具等等
  3. 打开一个新的会话并在一个图像上运行模型

这是一个相对来说较为简单的步骤。API 介绍里也提供了关于如何进行相关步骤的指导。

此模型在样本图像上的表现不错(详见下图):

运行视频

接下来,用视频来测试此 API。此操作通过 Python moviepy 库来实现。主要步骤如下:

  • 使用 VedioFileClip 方法从视频中提取图像
  • fl_image 方法可以快速从视频中抽取并替代图片。使用此方法来将视频的每一帧提取出来
  • 将处理后的每帧图片合并为一个新的图像

此段代码需要一定的时间(3-4秒的剪辑需要1分钟左右)。但是由于使用的是一个加载到内存的冻结模型,所以这些都可以在没有显卡的计算机上完成。

结果很惊人!只需要一小段代码,就可以准确识别并标记视屏中的人物。

在有些情况下它的功能还有待提升。比如在下图中,它并不能识别出视屏中的鸭子。

下一步

关于此 API 以后的想法

  • 使用更精确但抽象的模型来看看结果会如何;
  • 优化识别速度,使其可以在移动设备上使用;
  • Google 还提供使用这些模型进行转移学习的能力,即加载冻结模型,并添加具有不同图像类别的另一个输出图层。

参考

  • Google Tensorflow Object Detection Github:https://github.com/tensorflow/models/tree/master/object_detection
  • COCO dataset:http://mscoco.org/home/

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2017-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

使用OpenCV,Python和深度学习进行人脸识别

在这篇文章中,你将学会如何使用OpenCV、Python和深度学习在图像和视频流中执行人脸识别。我们今天将在这里使用的基于深度学习的面部嵌入,既高度准确又能够实...

2.7K5
来自专栏吉浦迅科技

TensorRT

作为Inference(推理)端的SDK的工具,TensorRT是可编程的处理加速器,主要是用来部署神经网络到Inference端之前,对于网络进行优化加速,来...

70611
来自专栏技术翻译

Orange:用于创建机器学习模型的便捷开源工具

在本教程中,我将演示Orange,一种用于机器学习的工具。Orange是一款极易使用,轻巧的拖放式工具。更重要的是,它是开源的!如果您是Anaconda用户,那...

1810
来自专栏目标检测和深度学习

用好这几款炼丹利器,调参从此得心应手 | Let's Fork

#实现显示结果的CV开发环境 ? Live CV 是一个用于实现显示结果的计算机视觉算法开发环境,基于 QtQuick 开发。它可以用于交互、链接和调整算法,以...

3698
来自专栏数据小魔方

think-cell chart系列9——折线图

今天跟大家分享think-cell chart系列的第9篇——折线图。 折线图是平时用的频率比较高的图表类型的了,下面教大家怎么在think-cell char...

4807
来自专栏悦思悦读

数据挖掘: R, Python,Machine Learning,一起学起来!

大数据概念的火爆带动了相关工具方法的流行。大数据工具中,R和Python以其开源、免费、简单易用、大量算法库和社区支持等特质赢得了一众人心。机器学习则以其高大上...

3698
来自专栏企鹅号快讯

机器视觉:用图像驱动智能小车

本篇大致探索下图像的识别。实现了颜色识别,以及利用直方图来计算图像相似度。先来个视频。 摄像头实时捕捉画面,从画面中解析出蓝色的区域,并与预设图像对比,相似度小...

4570
来自专栏AI科技大本营的专栏

用好这几款炼丹利器,调参从此得心应手

来源:PaperWeekly ▌01. Live CV 实现显示结果的CV开发环境 Live CV 是一个用于实现显示结果的计算机视觉算法开发环境,基于 Qt...

5016
来自专栏CVer

开源 | 深度学习网络模型(model)可视化开源软件Netron

前两天,Amusi分享了一篇 经典卷积神经网络(CNN)结构可视化工具,该工具可用于可视化各种经典的卷积神经网络结构。如AlexNet、VGG-16、ResNe...

6703
来自专栏杨熹的专栏

详解 TensorBoard-如何调参

什么是 TensorBoard TensorBoard 是 TensorFlow 上一个非常酷的功能,我们都知道神经网络很多时候就像是个黑盒子,里面到底是什么样...

6228

扫码关注云+社区

领取腾讯云代金券