专栏首页大数据文摘TED演讲 | 计算机是怎样快速看懂图片的:比R-CNN快1000倍的YOLO算法

TED演讲 | 计算机是怎样快速看懂图片的:比R-CNN快1000倍的YOLO算法

大数据文摘作品,转载要求见文末

主讲人 | Joseph Redmon

翻轴 | 海抒,Lisa,弋心

校对 | 陈啸明 后期 | DJ

You only live once?

不,You only look once!

一起来了解一个开源的算法,它让计算机只用看一次图片就能“看懂”图上有小猫小狗还是停车指示牌

本视频时长7分钟,暂时无法观看的小伙伴可以下拉正文,查看我们整理的视频内容喔。

?戳视频观看

视频内容

十年以前,计算机视觉研究者们觉得让计算机区别一只猫和一条狗,是一件几乎不可能的事儿。即使是在人工智能技术突飞猛进的情况下,现在我们可以以超过99%的精确度完成这件事,这叫做图像分类,给定一个图像,在图像上加一个标签,计算机就知道成千种分类

我是华盛顿大学的一名研究生,我正在一个叫做Darknet的项目上,她是一个神经网络框架,用来训练和测试计算机视觉模型。我们来看一下Darknet怎么分析。我们这张图片,当我们在这张图上运行分类器,我们得到的不仅是猫还是狗的预测,我们实际得到的是特定种类的预测,这就是我们现在可以达到的精度。

运行结果展示

而且它是正确的,我的狗的确是一条爱斯基摩,我们在图像分类技术上取得了很大的进步,但是当我们在这种图像上运行分类器,会发生什么呢?嗯……我们看到分类器得到了一个和刚才很相似的结果。

的确,图上有一只爱斯基摩,但是仅通过这个标签,我们还是无法了解这张图讲述了什么。我们需要一个更强大的技术,我正在解决一个叫做物体检测的问题。试图从一张图上找到所有的物体,框起来,标注上这些是什么物体,这就是我们在一张图上运行检测仪得到的结果。

现在,有了这样的结果,我们利用这个计算机视觉算法做很多事情,我们看到了它指出了有一只猫,一条狗,他们大致的方位,他们的大小,甚至可能还有一些额外信息,比如有本书在背景里,如果你希望在计算机视觉上构建一个系统,比如自驾车或是一个机器人系统,你就需要这样的信息了,这样你就可以和现实世界互动了。

识别物体和背景信息

现在,当我开始进行物体检测时,处理单张图像需要20秒,为了理解为什么速度在这个领域中是如此的重要。这里有一个例子:一个物体探测仪,用两秒钟来处理一张图像,那么这就比处理每张图像用20秒的探测仪快了10倍,并且你可以发现它每对图片进行一次预测的时间,都够用来改变世界了。

这对于一个应用来说可不是什么好事,如果我们再加速10倍,这就是一个每秒处理五个检测框(图片)的检测仪,这就要好多了。

然而,如果我们移动太快(效果就不那么好),我可不想让这样一个系统来开我的车。这是我们检测系统在我电脑上的实时运行状况,当我绕着检测框移动时,它能很流畅的追踪到我,并且它对于尺寸的各种改变也很兼容,摆造型——向前,向后,效果很棒,如果我们想利用计算机视觉来构建一个系统,这就是我们真正想要的结果。

准确追踪运动的物体

所以仅通过短短几年,我们经历了从每张图像20秒,到每张图像20毫秒,快了1000倍,我们是怎么做到的。以前,物体检测系统,会拿这样一张图像,把它分割成很多小区域,然后在每个区域上进行分类。然后总得分最高的那个分类器,就被认为是这个图像的检测结果。

但这需要在一个图像上跑几千次分类,几千次的神经网络估测来产成一个检测结果,相反,现在我们训练一个单个网络来为我们做所有的检测。它可以同步生成所有的边界框和分类概率,有了我们这个系统,不需要一张图像看一千次,来产生检测结果,你只需要看一次,这就是我们为什么把它叫"YOLO"物体探测方法。

有了这个速度,我们就可以不只局限于图像,还可以实时处理视频。现在,我们不仅仅可以看得到猫和狗,还可以看到他们的移动和互动。这是我们在微软COCO数据集中,用80种不同类别,训练出的检测器,其中包含各种常见物品,诸如汤匙,叉子,碗,等等,还有多种多样奇异的东西,动物,汽车,斑马,长颈鹿,等等。

准确实时识别展示柜上的物体

现在咱们来做件有趣的事,我们要到观众中去,看看我们能检测出什么。谁想要毛绒玩具?这还有些泰迪熊,我们把检测阈值稍微调低点儿,这样我们就能在观众席中多检测出一些东西,看看我们能不能抓住这些"停车"标志。

我们发现了一些背包,让我们放大点试试,效果很不错,所有处理过程都是在笔记本电脑上,实时进行的。有一点很重要,要记住,这是一个通用的目标检测系统,那么,我们可以训练它用于任何图像领域,一套用于在自动驾驶汽车上发现"停车"标识或者行人和自行车的代码,也可以用于在活组织检查中,定位癌细胞,全球各地已有许多研究人员利用这项技术,来促进诸如医学领域和机器人技术的发展。

今早我看到新闻,他们在内罗毕国家公园给动物做统计,检测系统中就用到了YOLO法,这是因为Darknet是开源的,属于共享软件,任何人都能免费使用,不过我们希望检测技术使用起来更方便,实用性更强。

手机上也能实现目标识别

于是,通过结合模型优化法,网络二元法和渐近法,我们竟然实现了在手机上运行目标检测系统!我特别激动,因为现在我们有了有力的方法,来解决这一低层的计算机视觉问题,所有人都可以拥有它,并用它做点什么。

那么,剩下的全取决于在座的各位了,当然,还有世界各地的,我非常期待看到大家用这个技术做出的成就!

感谢各位!(完)

目前,该项目已经有相关的网址啦!没过瘾的童鞋可以通过以下方式了解该项目的更多信息。have a nice time~

  • 视频地址: https://www.ted.com/talks/joseph_redmon_how_a_computer_learns_to_recognize_objects_instantly
  • 项目地址:https://pjreddie.com/darknet/yolo/

本文分享自微信公众号 - 大数据文摘(BigDataDigest),作者:大数据文摘字幕组

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数学,常识和运气:西蒙斯MIT演讲(视频+全文翻译)

    大数据文摘
  • 扎克伯格2017哈佛毕业演讲:自我价值让我们存在,使命感让我们所向披靡

    大数据文摘
  • [TED演讲]个人信息控制战已打响!

    大数据文摘
  • 浪潮之巅,程序员如何拥抱新技术?

    青润:我接触计算机最早的是 86 年,那个时候还是小学,就从 basic 开始学起,我本科学的是材料加工工程,毕业后又在中科院待了一年多,随后出来转行当程序员,...

    腾小云
  • 腾讯WE大会延续高逼格,10分钟让你看完16场演讲

    没有任何前戏,腾讯WE大会今天(11月08日)在北展剧场举行,在波涛汹涌的人群两侧,不时有几个叫卖门票的黄牛,现场也几乎座无虚席,可见这场跟未来科技有关的大会吸...

    腾讯大讲堂
  • 这些有趣的AI人脸特效背后,腾讯云都做了什么?

    我们知道在人脸特效里面用到了很多的 AI 技术,其实 AI 早已经走入我们的生活,给我们生活带来很多的变化,大家可以想一下在生活中遇到的使用AI的场景。

    腾小云
  • VP9编码器客观及主观质量优化

    大家好,我是韩敬宁,来自WebM Codec团队。今天非常高兴有机会能向大家介绍一下我们近期的关于VP9编码器优化的工作。VP9是在2013年release,从...

    LiveVideoStack
  • 凯文•凯利:预言科技的十大趋势,未来25年最重要的产品尚未出现

    《连线》(Wired)杂志创始主编、《失控》作者凯文•凯利 (Kevin Kelly)出席在深圳举行的2017国际众创周末,并阐述了他对于前沿科技趋势的看法,包...

    企鹅号小编
  • 传统企业疫情期间如何保障工作正常开展

    疫情当下,企业如何高效利用互联网技术手段,解决避免聚集风险,实现企业员工高效协作,远程办公,为企业正常运转保驾护航。通过案例分享通过在线客服、远程协作、智能客服...

    云大学小编
  • 15位顶尖思想家告诉你,未来的人类社会将会如何被颠覆

    导读:假设到了2050年,哪一项创新发明会最大程度地改变人类的生活?本文作者在海伊文学节开幕前曾邀请了15位顶尖作家和思想家回答了一个问题。

    华章科技

扫码关注云+社区

领取腾讯云代金券