计算机学会预测视频的下一步内容

2016年6月21日,美国麻省理工学院发布消息称,计算机已经可以预测视频内容。

如果看到两个人会面,我们常常可以预测到即将出现的情形:握手,拥抱,甚至可能会接吻。我们这种预测行为的能力是来自于生活经验带来的直觉。另一方面,机器在利用上述复杂知识方面存在很大困难。能够预测行为的计算机系统将在以下方面带来新的可能性:能够在人类环境中更好地导航的机器人;可以预测人类摔倒的急救反应系统;能够在不同情况下提供行动建议的头戴设备等。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在预测视觉方面取得了一项重要的新突破。他们开发了一种算法,能够比以前更准确地预测互动过程。

经过YouTube上的视频和“办公室”、“绝望主妇”等电视剧的训练,这个系统可预测两个人是否会拥抱、亲吻、握手或相互击掌。它也可以预测在一个视频中某个时刻的五秒钟后可能会出现什么对象。人类的问候行为看起来像是随意的行为,因此这个任务可以看作一个供研究人员研究的更易控制的测试实例。该研究的主要人员之一Carl Vondrick表示:人类可以自动从经验中学会预测行为,而仅仅通过观看大量的视频,计算机就能够获得足够的知识来对它们周围的情况作出持续的预测。

以前的计算机视觉预测一般采用以下两种方法之一:第一种方法是观测一副图像的每个像素,并使用这些知识来创建达到照片画质的“未来”影像。Vondrick表示,逐个像素的操作“对职业画家来说是很困难的,但对一个算法而言则简单地多”。第二种方法是利用人工为计算机预标记场景,但对大规模的预测任务来说,这是不切实际的。

CSAIL团队创造的是一种能够用来预测“视觉表示”的算法,其呈现的主要内容是某个场景的多种可能后续场景的静态效果图像。Vondrick表示,与其给出单个像素值是蓝色的、下一个是红色的等结论,视觉表示更倾向于揭示较大图像的信息,如某个表示人脸的像素集合等。

该团队的算法采用了深度学习技术。这是一个人工智能领域,使用被称为“神经网络”的系统来训练计算机去研究大量的数据,以自动找到合适的工作模式。该算法的每一个网络给出的预测表示被自动归类为四个行动之一:在上述情况下,就是拥抱、握手、击掌或者接吻。随后系统将这些行为合并成一个,并将其作为预测结果。例如,有三个网络预测的结果是接吻行为,而另一个网络可能根据有另一个人进入场景的事实预测出结果将是一个拥抱。

在使用600小时的未标记视频对算法进行训练后,该团队测试了它在新视频中对行为和对象的预测效果。测试表明,该算法对人物下一动作的预测准确率超过了43%,而现有算法只能达到36%。在第二项研究中,该算法被要求根据某个视频中的一帧图像来预测五秒种后将出现什么对象。例如,看到有人打开微波炉可能预示着后面会出现咖啡杯。研究表明,该算法的平均预测准确率只有11%,它对单帧对象的预测准确率比基准准确率高30%。

值得一提的是,人的预测准确率为71%。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

人工智能、机器学习、深度学习,三者之间的同心圆关系

理解三者之间关系的最简便方法就是将它们视觉化为一组同心圆——首先是最大的部分人工智能——然后是后来兴旺的机器学习——最后是促使当下人工智能大爆发的深度学习——在...

684
来自专栏企鹅号快讯

现在 tensorflow和mxnet 很火,是否还有必要学习 scikit-learn 等框架?

本文整理自作者在知乎问题《现在 tensorflow 和 mxnet 很火,是否还有必要学习 scikit-learn 等框架?》下的回答,AI 研习社获其作者...

2597
来自专栏大数据挖掘DT机器学习

LSTM模型预测效果惊人的好,深度学习做股票预测靠谱吗?

给你讲个段子!真实的! 我去一家量化交易公司实习,一次meeting中,我和老总还有一个资深大佬谈机器学习在股票和期货里面的应用。 我:LSTM在时间...

3938
来自专栏AI科技评论

业界丨人工智能哪些领域及公司值得关注?Playfair投资人为你阐述六大关注方向

AI科技评论按:有人将人工智能定义为“认知计算”或者是“机器智能”,有的人将 AI 与“机器学习”混为一谈。事实上,这些都是不准确的,因为人工智能不单单是指某一...

3405
来自专栏PPV课数据科学社区

K-Means算法的10个有趣用例

K-means算法具有悠久的历史,并且也是最常用的聚类算法之一。K-means算法实施起来非常简单,因此,它非常适用于机器学习新手爱好者。首先我们来回顾K-Me...

3145
来自专栏灯塔大数据

深度|一篇文章搞懂人工智能、机器学习和深度学习之间的区别

2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源。这两年在不管在国内还是在国外,人工智能、机器学习仿佛一夜之前传遍大街小巷。 概...

34510
来自专栏AI科技评论

Deepmind大神David Silver带你认识强化学习

引言:强化学习(Reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。 ? David Silv...

3053
来自专栏AI科技大本营的专栏

​产品经理如何学机器学习——一篇以产品为中心的机器学习概论

我现在常常听说产品负责人/经理、技术经理和设计师通过网上课程学习机器学习。我一直鼓励这种做法——实际上,我本人曾学习过那些课程(并且在博客上发表了相关内容)。 ...

3528
来自专栏数据派THU

独家 | 如何改善你的训练数据集?(附案例)

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分,我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集...

744
来自专栏AI科技评论

学界 | 专家标注的数据少就少吧,普通人标的数据现在也可以用了

AI 科技评论按:对于缺乏高质量标注数据的专业应用,除了继续花钱标数据之外,常用方法似乎也就只有 ImageNet 预训练 + 任务专用数据 fine-tune...

692

扫描关注云+社区