前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TED演讲 | 计算机是怎样快速看懂图片的:比R-CNN快1000倍的YOLO算法

TED演讲 | 计算机是怎样快速看懂图片的:比R-CNN快1000倍的YOLO算法

作者头像
大数据文摘
发布2018-05-24 17:48:12
1.7K0
发布2018-05-24 17:48:12
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品,转载要求见文末

主讲人 | Joseph Redmon

翻轴 | 海抒,Lisa,弋心

校对 | 陈啸明 后期 | DJ

You only live once?

不,You only look once!

一起来了解一个开源的算法,它让计算机只用看一次图片就能“看懂”图上有小猫小狗还是停车指示牌

本视频时长7分钟,暂时无法观看的小伙伴可以下拉正文,查看我们整理的视频内容喔。

?戳视频观看

视频内容

十年以前,计算机视觉研究者们觉得让计算机区别一只猫和一条狗,是一件几乎不可能的事儿。即使是在人工智能技术突飞猛进的情况下,现在我们可以以超过99%的精确度完成这件事,这叫做图像分类,给定一个图像,在图像上加一个标签,计算机就知道成千种分类

我是华盛顿大学的一名研究生,我正在一个叫做Darknet的项目上,她是一个神经网络框架,用来训练和测试计算机视觉模型。我们来看一下Darknet怎么分析。我们这张图片,当我们在这张图上运行分类器,我们得到的不仅是猫还是狗的预测,我们实际得到的是特定种类的预测,这就是我们现在可以达到的精度。

运行结果展示

而且它是正确的,我的狗的确是一条爱斯基摩,我们在图像分类技术上取得了很大的进步,但是当我们在这种图像上运行分类器,会发生什么呢?嗯……我们看到分类器得到了一个和刚才很相似的结果。

的确,图上有一只爱斯基摩,但是仅通过这个标签,我们还是无法了解这张图讲述了什么。我们需要一个更强大的技术,我正在解决一个叫做物体检测的问题。试图从一张图上找到所有的物体,框起来,标注上这些是什么物体,这就是我们在一张图上运行检测仪得到的结果。

现在,有了这样的结果,我们利用这个计算机视觉算法做很多事情,我们看到了它指出了有一只猫,一条狗,他们大致的方位,他们的大小,甚至可能还有一些额外信息,比如有本书在背景里,如果你希望在计算机视觉上构建一个系统,比如自驾车或是一个机器人系统,你就需要这样的信息了,这样你就可以和现实世界互动了。

识别物体和背景信息

现在,当我开始进行物体检测时,处理单张图像需要20秒,为了理解为什么速度在这个领域中是如此的重要。这里有一个例子:一个物体探测仪,用两秒钟来处理一张图像,那么这就比处理每张图像用20秒的探测仪快了10倍,并且你可以发现它每对图片进行一次预测的时间,都够用来改变世界了。

这对于一个应用来说可不是什么好事,如果我们再加速10倍,这就是一个每秒处理五个检测框(图片)的检测仪,这就要好多了。

然而,如果我们移动太快(效果就不那么好),我可不想让这样一个系统来开我的车。这是我们检测系统在我电脑上的实时运行状况,当我绕着检测框移动时,它能很流畅的追踪到我,并且它对于尺寸的各种改变也很兼容,摆造型——向前,向后,效果很棒,如果我们想利用计算机视觉来构建一个系统,这就是我们真正想要的结果。

准确追踪运动的物体

所以仅通过短短几年,我们经历了从每张图像20秒,到每张图像20毫秒,快了1000倍,我们是怎么做到的。以前,物体检测系统,会拿这样一张图像,把它分割成很多小区域,然后在每个区域上进行分类。然后总得分最高的那个分类器,就被认为是这个图像的检测结果。

但这需要在一个图像上跑几千次分类,几千次的神经网络估测来产成一个检测结果,相反,现在我们训练一个单个网络来为我们做所有的检测。它可以同步生成所有的边界框和分类概率,有了我们这个系统,不需要一张图像看一千次,来产生检测结果,你只需要看一次,这就是我们为什么把它叫"YOLO"物体探测方法。

有了这个速度,我们就可以不只局限于图像,还可以实时处理视频。现在,我们不仅仅可以看得到猫和狗,还可以看到他们的移动和互动。这是我们在微软COCO数据集中,用80种不同类别,训练出的检测器,其中包含各种常见物品,诸如汤匙,叉子,碗,等等,还有多种多样奇异的东西,动物,汽车,斑马,长颈鹿,等等。

准确实时识别展示柜上的物体

现在咱们来做件有趣的事,我们要到观众中去,看看我们能检测出什么。谁想要毛绒玩具?这还有些泰迪熊,我们把检测阈值稍微调低点儿,这样我们就能在观众席中多检测出一些东西,看看我们能不能抓住这些"停车"标志。

我们发现了一些背包,让我们放大点试试,效果很不错,所有处理过程都是在笔记本电脑上,实时进行的。有一点很重要,要记住,这是一个通用的目标检测系统,那么,我们可以训练它用于任何图像领域,一套用于在自动驾驶汽车上发现"停车"标识或者行人和自行车的代码,也可以用于在活组织检查中,定位癌细胞,全球各地已有许多研究人员利用这项技术,来促进诸如医学领域和机器人技术的发展。

今早我看到新闻,他们在内罗毕国家公园给动物做统计,检测系统中就用到了YOLO法,这是因为Darknet是开源的,属于共享软件,任何人都能免费使用,不过我们希望检测技术使用起来更方便,实用性更强。

手机上也能实现目标识别

于是,通过结合模型优化法,网络二元法和渐近法,我们竟然实现了在手机上运行目标检测系统!我特别激动,因为现在我们有了有力的方法,来解决这一低层的计算机视觉问题,所有人都可以拥有它,并用它做点什么。

那么,剩下的全取决于在座的各位了,当然,还有世界各地的,我非常期待看到大家用这个技术做出的成就!

感谢各位!(完)

目前,该项目已经有相关的网址啦!没过瘾的童鞋可以通过以下方式了解该项目的更多信息。have a nice time~

  • 视频地址: https://www.ted.com/talks/joseph_redmon_how_a_computer_learns_to_recognize_objects_instantly
  • 项目地址:https://pjreddie.com/darknet/yolo/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档