计算机学会预测视频的下一步内容

2016年6月21日,美国麻省理工学院发布消息称,计算机已经可以预测视频内容。

如果看到两个人会面,我们常常可以预测到即将出现的情形:握手,拥抱,甚至可能会接吻。我们这种预测行为的能力是来自于生活经验带来的直觉。另一方面,机器在利用上述复杂知识方面存在很大困难。能够预测行为的计算机系统将在以下方面带来新的可能性:能够在人类环境中更好地导航的机器人;可以预测人类摔倒的急救反应系统;能够在不同情况下提供行动建议的头戴设备等。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在预测视觉方面取得了一项重要的新突破。他们开发了一种算法,能够比以前更准确地预测互动过程。

经过YouTube上的视频和“办公室”、“绝望主妇”等电视剧的训练,这个系统可预测两个人是否会拥抱、亲吻、握手或相互击掌。它也可以预测在一个视频中某个时刻的五秒钟后可能会出现什么对象。人类的问候行为看起来像是随意的行为,因此这个任务可以看作一个供研究人员研究的更易控制的测试实例。该研究的主要人员之一Carl Vondrick表示:人类可以自动从经验中学会预测行为,而仅仅通过观看大量的视频,计算机就能够获得足够的知识来对它们周围的情况作出持续的预测。

以前的计算机视觉预测一般采用以下两种方法之一:第一种方法是观测一副图像的每个像素,并使用这些知识来创建达到照片画质的“未来”影像。Vondrick表示,逐个像素的操作“对职业画家来说是很困难的,但对一个算法而言则简单地多”。第二种方法是利用人工为计算机预标记场景,但对大规模的预测任务来说,这是不切实际的。

CSAIL团队创造的是一种能够用来预测“视觉表示”的算法,其呈现的主要内容是某个场景的多种可能后续场景的静态效果图像。Vondrick表示,与其给出单个像素值是蓝色的、下一个是红色的等结论,视觉表示更倾向于揭示较大图像的信息,如某个表示人脸的像素集合等。

该团队的算法采用了深度学习技术。这是一个人工智能领域,使用被称为“神经网络”的系统来训练计算机去研究大量的数据,以自动找到合适的工作模式。该算法的每一个网络给出的预测表示被自动归类为四个行动之一:在上述情况下,就是拥抱、握手、击掌或者接吻。随后系统将这些行为合并成一个,并将其作为预测结果。例如,有三个网络预测的结果是接吻行为,而另一个网络可能根据有另一个人进入场景的事实预测出结果将是一个拥抱。

在使用600小时的未标记视频对算法进行训练后,该团队测试了它在新视频中对行为和对象的预测效果。测试表明,该算法对人物下一动作的预测准确率超过了43%,而现有算法只能达到36%。在第二项研究中,该算法被要求根据某个视频中的一帧图像来预测五秒种后将出现什么对象。例如,看到有人打开微波炉可能预示着后面会出现咖啡杯。研究表明,该算法的平均预测准确率只有11%,它对单帧对象的预测准确率比基准准确率高30%。

值得一提的是,人的预测准确率为71%。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

线性代数与张量?这本开放书籍帮你扫清通往ML的数学绊脚石

项目地址:https://web.stanford.edu/~boyd/vmls/

862
来自专栏人工智能头条

需要密切关注的六大人工智能/机器学习领域

1843
来自专栏AI研习社

关于模型可解释性的深入思考:从哪里来,到哪里去?

AI 研习社:本文作者 Cody Marie Wild,不仅是一位机器学习领域的数据科学家(目前任职 phos 公司),在生活中还是名不折不扣的猫咪铲屎官,她钟...

1512
来自专栏媒矿工厂

Facebook VR方案总结(三)

全景视频,也称360°视频,是一种新一代的视频显示技术,用户置于球形区域中央,可以任意在拍摄角度周围360度地观看动态视频,而不受时间、空间和地...

3885
来自专栏AI科技大本营的专栏

周末漫谈 | 都说想转型机器学习,到你真的有机会吗?机器学习下一个创新点到底在哪里?

本期话题 这个周六,让我们来聊聊当前火热的机器学习,它未来的机会在哪里呢? 机器学习、计算机视觉下一步的创新点在哪里? 随着硬件的迭代,神经网络的隐藏层可以...

3389
来自专栏人工智能头条

关于强化学习你不得不知道的5件事

1863
来自专栏AI科技评论

智能体的白日梦,谷歌大脑又出来PR文了?

智能体能否在梦中学习?Yes! 白日梦是人类的专属?No! 这是谷歌大脑的又一篇 PR 文章吗?难说~ AI 科技评论按:继前段时间在 arxiv 上贴出《on...

2906
来自专栏人工智能头条

ICML进行时|一文看尽获奖论文及Google、Facebook、微软、腾讯的最新科研成果

【导读】 ICML ( International Conference on Machine Learning),国际机器学习大会如今已发展为由国际机器学习学...

1262
来自专栏灯塔大数据

必看 :大数据挖掘中易犯的11大错误

0 缺乏数据(LackData) 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如: 欺诈侦测(FraudDetection):在上百万的交易中...

4137
来自专栏新智元

【干货】机器学习概览+模型可视化呈现

2016年10月18日, 世界人工智能大会技术论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:...

4136

扫码关注云+社区