深度|MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

我们生活在物理世界里,但往往没有深入思考这样一个问题:自己是如何迅速理解周边事物的?

人类能够对背景的变化、事物之间的相互关联等等做出非常自然的反应。而且,这些反应并不会耗费我们多少注意力,同时还能处理得非常妥帖。

但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在发展的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测是非常困难的。

近期,麻省理工学院(MIT)计算科学与人工智能实验室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的发展。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。

训练过程使用了 200 万个无标签的镜头,视频总时长达一年。相比使用基准模型算法,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。

研究团队称,这项技术可以用于改进安检策略、提高自动驾驶安全性等诸多领域。据该实验室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。 “这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。

MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果

此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。

动态视觉

许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。

以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。

“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”

当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。

研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。

通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。

团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。

其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。

尽管还有人怀疑视频到底是真实的还是虚假的,但这的确已取得很大进步。

这个系统将努力学习这个世界,比如前景背景的分割。上图为该算法的图像分割技术,可以得到前景和背景图。

场景测试

研究团队将该方法生成的视频与基准模型方法的结果做出比对,通过询问测试者哪种结果更加真实来给出判决。从 150 位测试者提供的 13000 个结果中,认为前者更真实的结果数量相比后者高出 20%。

Vondrick 强调目前这一模型还欠缺一些简化的常识性准则。例如,算法有时不能理解目标移动后所占用的区域会不会发生变化,比如贯穿画面的一列火车。此外算法生成的人和物的尺寸会看起来比实际大很多。

另一个限制因素是时间,该算法生成的视频仅仅能持续 1.5 秒。在后期研究工作中,他们团队期待可以增加时间。但是这是个不小的挑战,因为这要求算法计算相隔较远的时间点上的相关性,从而确保景象仍然在更长时间内是说得通的。解决这个问题的一个方法是使用监督学习。

“在一个视频的长时间段中想要搜罗到精确的信息非常困难。”Vondrick 认为,“如果一个视频里既包括做饭又含有吃饭的活动,那么必须使这两个动作之间产生互相关,从而使得视频看起来更加准确。”

这种模型并不局限于预测未来。生成的视频还可以用来美化静态图片,赋之以动态效果。就像“哈利波特”电影中的报纸一样充满灵动感。这种模型还可以帮助人类检测安全连续镜头下的异常。此外,在存储和发送长视频文件方面,该模型还可以帮助压缩文件。

“未来,这项技术将会扩展我们的视觉系统,仅仅训练一些视频而不再需要监督学习,就能识别物体和景象。”Vondrick 说道。

via MIT CSAIL

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

为什么吴恩达认为未来属于迁移学习?

AI研习社按:日前,知名 AI 博主、爱尔兰国立大学 NLP 博士生 Sebastian Ruder 以 “迁移学习:机器学习的下一个前线” 为题,对迁移学习的...

2683
来自专栏美团技术团队

机器学习中模型优化不得不思考的几个问题

? 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累的点。机器学习实践中,我们平时都在积累自己的“弹药库”:分类、回归、...

3545
来自专栏人工智能头条

深度神经网络的灰色区域:可解释性问题

1922
来自专栏AI科技评论

干货 | AI 大行其道,你准备好了吗?—谨送给徘徊于是否转行 AI 的程序员

AI 科技评论按:本文作者章华燕, 金桥智慧科技算法工程师。本文原载于个人博客,AI 科技评论获得授权转载。 前言 近年来,随着 Google 的 AlphaG...

2543
来自专栏机器之心

人物 | Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、蒋思源 著名物理学家、加州理工学院教授以及畅销书作者理查德·费曼( Richard Fey...

36111
来自专栏机器学习算法工程师

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言   近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 G...

3399
来自专栏AI科技评论

业界丨人工智能哪些领域及公司值得关注?Playfair投资人为你阐述六大关注方向

AI科技评论按:有人将人工智能定义为“认知计算”或者是“机器智能”,有的人将 AI 与“机器学习”混为一谈。事实上,这些都是不准确的,因为人工智能不单单是指某一...

3515
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

2905
来自专栏PPV课数据科学社区

【学习】从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、...

3025
来自专栏黄成甲

夜话人工智能

人工智能是一门非常复杂、庞大的科学,其中的机器学习、深度学习等细分学科是当下的研究热点。从1956年至今,无数科学家历经艰辛与坎坷,终于让人工智能迈出了属于全人...

1873

扫码关注云+社区