专栏首页ATYUN订阅号麻省理工的深度学习新研究

麻省理工的深度学习新研究

编辑 | TGS

发布 | ATYUN订阅号

机器学习有一个分支叫做“深度学习”,它能帮助电脑在医学扫描等定义明确的视觉任务上超越人类。随着这项技术扩展到解读视频和真实世界的领域,它的模型变得越来越大,计算量也越来越大。

据估计,训练一个视频识别模型比训练一个图像分类模型需要多出50倍的数据和8倍的处理能力。随着用于训练深度学习模型处理能力的需求呈指数级增长,以及人们对人工智能巨大碳足迹的担忧与日俱增,在低功耗移动设备上运行大型视频识别模型,成为了一个很大的挑战,许多人工智能应用程序正朝着这个方向发展。

麻省理工学院,电子工程与计算机科学系副教授宋涵,正在通过设计更高效的深度学习模型来解决这个问题。

在国际计算机视觉大会上,宋教授、麻省理工学院研究生季林和麻省理工- Ibm沃森人工智能实验室研究员庄干,在一篇论文中概述了一种缩小视频识别模型的方法,可以加快模型在智能手机和其他移动设备上的性能。他们的方法可以通过将最先进模型中的1.5亿个参数减少到2500万个参数,把模型缩小到原体积的1 / 6。

基础图像和视频识别模型是神经网络,能大致模拟大脑处理信息的方式。无论是数码照片还是视频图像序列,神经网络都会在像素中寻找模式,并为它们看到的东西构建一个抽象的表示。如果有足够多的例子,神经网络就可以“学习”识别人、物体以及两者之间的关系。

目前,顶尖的视频识别模型会使用三维卷积对一系列图像中的时间流逝进行编码,这就产生了更大、计算更密集的模型。为了减少计算量,宋教授和他的同事们设计了一种操作,他们称之为时间移位模块,该模块可以选定视频帧的特征映射转移到相邻帧,然后通过混合过去、现在和未来的空间表示,让模型获得一种时间流逝的感觉,从而避免显式地表示它,这样就解放了很大的计算力。

在最近的公开排名中,新模型在识别Something-Something视频数据集中的行为方面超越了同类模型,移位模块的在线版本也足够灵活,可以实时读取运动,在版本1和版本2中获得了第一名。IBM研究主管DarioGil,在最近由MIT-IBM沃森人工智能实验室主办的人工智能研究周上的开幕词中强调了这项工作,可见其重视程度。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 刷脸付款才刚刚开始,刷静脉付款就来了

    如今,一部手机就可以解决支付问题,因此有越来越多的人出门不带钱包了。从密码付款到扫码付款,再到指纹付款。但是苹果在近日的新品发布会上展示的Face ID,使刷脸...

    AiTechYun
  • 【学术】以精确性来提高对机器学习的信任

    传统的机器学习工作流程主要集中在模型训练和优化上,最好的模型通常是通过像精确或错误这样的性能度量来选择的,我们倾向于假定一个模型如果超过了这些性能标准的某些阈值...

    AiTechYun
  • 8:1高票通过面部识别禁令,旧金山成为首个禁用面部识别的城市

    长期处于技术革命核心的旧金山,采取了反对潜在滥用的立场,禁止警察和其他机构使用面部识别软件。

    AiTechYun
  • 一款「 负体验 」的AI产品

    今年我大部分的时间都花在研究人工智能和写书上(文章后面有书的进展,出版社编辑终于可以让我公布出来了哈哈哈),在快要到10月份的时候,我大学毕业时立下的“一年开发...

    mixlab
  • 微信小程序基于万象优图实现图片 OCR

    随着小程序开放越来越多的类目,越来越多的企业将各种各样的需求开发成小程序,而基于图像识别的名片识别、身份证识别或者普通文字的 OCR 也越来越多的被应用于各种场...

    Jason
  • 现场 | 英特尔中国研究院认知计算实验室主任陈玉荣博士:如何“享用”视觉识别技术的低廉化大潮

    英特尔中国研究院认知计算实验室: 致力于视觉认知和机器学习前沿领域的科技创新,开发视觉内容理解和视觉内容创建的领先技术,从而在英特尔平台上实现视觉数据的智能处理...

    AI科技评论
  • 迁移学习人民币面值识别(附源码)-InceptionResNetV2

    谷歌开放了 Inception-ResNet-v2,这是一个在 ILSVRC 图像分类基准上取得顶尖准确率的卷积神经网络。Inception-ResNet-v2...

    机器学习AI算法工程
  • Android实现扫一扫识别数字功能

    训练数据可以在tessdata下载,里面包含各种语言。当然你自己也可以训练它,有兴趣的可以学习一下相关内容。

    砸漏
  • 【深度学习】④--卷积神经网络与迁移学习

    1. 图像识别与定位 图像的相关任务可以分成以下两大类和四小类: 图像识别,图像识别+定位,物体检测,图像分割。 ? 图像的定位就是指在这个图片中不但识别...

    Spark学习技巧
  • 机器学习模型与传统机理模型的融合

    基于物理过程的各种数学模型在水力、市政、海洋等领域已经得到了很多年的发展和应用,随着这几年机器学习技术的大热,也有越来越多的人尝试将机器学习技术应用在水力、市政...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券