深度|MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

我们生活在物理世界里,但往往没有深入思考这样一个问题:自己是如何迅速理解周边事物的?

人类能够对背景的变化、事物之间的相互关联等等做出非常自然的反应。而且,这些反应并不会耗费我们多少注意力,同时还能处理得非常妥帖。

但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在发展的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测是非常困难的。

近期,麻省理工学院(MIT)计算科学与人工智能实验室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的发展。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。

训练过程使用了 200 万个无标签的镜头,视频总时长达一年。相比使用基准模型算法,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。

研究团队称,这项技术可以用于改进安检策略、提高自动驾驶安全性等诸多领域。据该实验室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。 “这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。

MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果

此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。

动态视觉

许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。

以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。

“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”

当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。

研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。

通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。

团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。

其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。

尽管还有人怀疑视频到底是真实的还是虚假的,但这的确已取得很大进步。

这个系统将努力学习这个世界,比如前景背景的分割。上图为该算法的图像分割技术,可以得到前景和背景图。

场景测试

研究团队将该方法生成的视频与基准模型方法的结果做出比对,通过询问测试者哪种结果更加真实来给出判决。从 150 位测试者提供的 13000 个结果中,认为前者更真实的结果数量相比后者高出 20%。

Vondrick 强调目前这一模型还欠缺一些简化的常识性准则。例如,算法有时不能理解目标移动后所占用的区域会不会发生变化,比如贯穿画面的一列火车。此外算法生成的人和物的尺寸会看起来比实际大很多。

另一个限制因素是时间,该算法生成的视频仅仅能持续 1.5 秒。在后期研究工作中,他们团队期待可以增加时间。但是这是个不小的挑战,因为这要求算法计算相隔较远的时间点上的相关性,从而确保景象仍然在更长时间内是说得通的。解决这个问题的一个方法是使用监督学习。

“在一个视频的长时间段中想要搜罗到精确的信息非常困难。”Vondrick 认为,“如果一个视频里既包括做饭又含有吃饭的活动,那么必须使这两个动作之间产生互相关,从而使得视频看起来更加准确。”

这种模型并不局限于预测未来。生成的视频还可以用来美化静态图片,赋之以动态效果。就像“哈利波特”电影中的报纸一样充满灵动感。这种模型还可以帮助人类检测安全连续镜头下的异常。此外,在存储和发送长视频文件方面,该模型还可以帮助压缩文件。

“未来,这项技术将会扩展我们的视觉系统,仅仅训练一些视频而不再需要监督学习,就能识别物体和景象。”Vondrick 说道。

via MIT CSAIL

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

像人一样脑补世界!DeepMind历时一年半搞出GQN,登上Science

1745
来自专栏一名叫大蕉的程序员

机器学习从抬脚到趴倒在门槛No.34

好像一下子,进入了AI时代,后台的很多小伙伴其实都很迷茫,自己现在该如何去做好准备,去迎接即将到来的All in AI。 所以就有了今天这篇文章啦。今天呢,跟...

1839
来自专栏AI研习社

人脑的前额皮质里藏了一个强化学习系统,DeepMind 如是说

AI 研习社按:最近,AI 系统已经学会一系列游戏的玩法,如雅达利经典游戏 Breakout 和 Pong。尽管这样的表现令人印象深刻,但其实人工智能需要数千小...

652
来自专栏新智元

LeCun Quora 问答读后:深度学习走向何方

【新智元导读】前天深度学习代表人物Yann LeCun在Quora答题,新智元第一时间跟进,LeCun表示他最看好深度学习的对抗式网络,引发从业者王天树回忆起当...

3268
来自专栏云时之间

什么是机器学习

看到很多的小伙伴对于机器学习有这么大的兴趣,同时发现也有很多刚刚接触机器学习的小伙伴并不了解什么是机器学习.所以我想尽自己的微薄之力来谈谈我对与机器学习的理解....

2985
来自专栏新智元

【深度学习下一大突破】吴恩达对话 Hinton、Bengio、Goodfellow(视频)

【新智元导读】吴恩达深度学习系列课程 Deeplearning.ai 上线,专设对话部分,用视频的形式将他对 7 位深度学习领袖的采访呈现出来,分别是 Geof...

2826
来自专栏PPV课数据科学社区

机器学习技术类书单推荐

机器学习技术类书单推荐,共11本: 《机器学习》 《图解机器学习》 《机器学习实战》【有电子版】 《机器学习系统设计》【有电子版】 《Python机器学习基础教...

33514
来自专栏新智元

拥抱深度学习还是数学的优雅?神经网络对图像处理、数学和人类的影响

【新智元导读】本文作者 Michael Elad 是以色列理工学院计算机科学系教授,也是成像科学期刊 SIAM 的主编。他对当前图像领域使用深度学习的矛盾做了深...

54917
来自专栏新智元

【吴恩达主讲CS229机器学习】最新课程安排,附吴恩达ML算法应用建议

【新智元导读】经典机器学习课程、由吴恩达主讲的斯坦福CS229最新一期已经开始。用吴恩达的话说,他之所以还保留斯坦福教职很大程度上就是想教授这门课。本文将介绍课...

2896
来自专栏ATYUN订阅号

研究人员正尝试用AI替代动物测试,但准确率欠佳

仅在欧洲,2011年最常进行的九项动物试验有57%的几率导致动物致命。几十年来,动物权利积极分子一直抗议这一有争议的做法,这一点也不足为奇。

876

扫码关注云+社区