深度|MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

我们生活在物理世界里,但往往没有深入思考这样一个问题:自己是如何迅速理解周边事物的?

人类能够对背景的变化、事物之间的相互关联等等做出非常自然的反应。而且,这些反应并不会耗费我们多少注意力,同时还能处理得非常妥帖。

但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在发展的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测是非常困难的。

近期,麻省理工学院(MIT)计算科学与人工智能实验室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的发展。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。

训练过程使用了 200 万个无标签的镜头,视频总时长达一年。相比使用基准模型算法,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。

研究团队称,这项技术可以用于改进安检策略、提高自动驾驶安全性等诸多领域。据该实验室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。 “这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。

MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果

此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。

动态视觉

许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。

以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。

“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”

当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。

研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。

通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。

团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。

其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。

尽管还有人怀疑视频到底是真实的还是虚假的,但这的确已取得很大进步。

这个系统将努力学习这个世界,比如前景背景的分割。上图为该算法的图像分割技术,可以得到前景和背景图。

场景测试

研究团队将该方法生成的视频与基准模型方法的结果做出比对,通过询问测试者哪种结果更加真实来给出判决。从 150 位测试者提供的 13000 个结果中,认为前者更真实的结果数量相比后者高出 20%。

Vondrick 强调目前这一模型还欠缺一些简化的常识性准则。例如,算法有时不能理解目标移动后所占用的区域会不会发生变化,比如贯穿画面的一列火车。此外算法生成的人和物的尺寸会看起来比实际大很多。

另一个限制因素是时间,该算法生成的视频仅仅能持续 1.5 秒。在后期研究工作中,他们团队期待可以增加时间。但是这是个不小的挑战,因为这要求算法计算相隔较远的时间点上的相关性,从而确保景象仍然在更长时间内是说得通的。解决这个问题的一个方法是使用监督学习。

“在一个视频的长时间段中想要搜罗到精确的信息非常困难。”Vondrick 认为,“如果一个视频里既包括做饭又含有吃饭的活动,那么必须使这两个动作之间产生互相关,从而使得视频看起来更加准确。”

这种模型并不局限于预测未来。生成的视频还可以用来美化静态图片,赋之以动态效果。就像“哈利波特”电影中的报纸一样充满灵动感。这种模型还可以帮助人类检测安全连续镜头下的异常。此外,在存储和发送长视频文件方面,该模型还可以帮助压缩文件。

“未来,这项技术将会扩展我们的视觉系统,仅仅训练一些视频而不再需要监督学习,就能识别物体和景象。”Vondrick 说道。

via MIT CSAIL

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

在视频网站Netflix上进行个性化算法的创新 迎合你的口味排序视频

Netflix是一家美国在线视频网站。Netflix的视频体验是由一系列排名算法(Ranking Algorithm)组成的,每一种算法都针对不同的目的进行优化...

2755
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

2685
来自专栏新智元

【深度学习下一大突破】吴恩达对话 Hinton、Bengio、Goodfellow(视频)

【新智元导读】吴恩达深度学习系列课程 Deeplearning.ai 上线,专设对话部分,用视频的形式将他对 7 位深度学习领袖的采访呈现出来,分别是 Geof...

2796
来自专栏数据科学与人工智能

【经验】普通程序员如何转做人工智能

小编邀请您,先思考: 1 您擅长那种编程语言? 2 您了解深度学习,机器学习和人工智能吗? 我曾经也只是一个只懂 ACM 竞赛相关算法的普通程序员,误打误撞接触...

3348
来自专栏机器学习算法与Python学习

一篇文章讲清楚人工智能、机器学习和深度学习的区别与联系

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 人工智能的浪潮正在席卷全球,诸多词汇...

4257
来自专栏新智元

【CVPR 2018】照片闭眼也无妨,Facebook黑科技完美补全大眼睛

1103
来自专栏新智元

【干货】生成对抗式网络创始人Quora答疑

【新智元导读】还记得不久前LeCun在Quora答题时说的,他最激动的深度学习进展是“生成对抗网络”吗?生成对抗网络的提出者Ian Goodfellow日前也在...

34112
来自专栏机器学习算法与Python学习

机器学习很难上手和提升?你只差一条学习路径!

从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone x 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速...

440
来自专栏人称T客

人工智能、机器学习、深度学习的区别在哪?|编译

编者:T 客汇 杨丽 张苏月 关键词:人工智能,机器学习,深度学习 网址:www.tikehui.com 有人说,人工智能(Artificial Intell...

3095
来自专栏AI研习社

深度学习如何影响运筹学?

本文为知乎答主,运筹学博士郝井华在「深度学习如何影响运筹学?」问题下的答案,AI 研习社获其授权转载。 这个问题比较前沿一些,原来看起来相关性不那么强的技术领域...

2654

扫描关注云+社区