前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >计算机学会预测视频的下一步内容

计算机学会预测视频的下一步内容

作者头像
人工智能快报
发布2018-03-13 18:01:03
6550
发布2018-03-13 18:01:03
举报
文章被收录于专栏:人工智能快报人工智能快报

2016年6月21日,美国麻省理工学院发布消息称,计算机已经可以预测视频内容。

如果看到两个人会面,我们常常可以预测到即将出现的情形:握手,拥抱,甚至可能会接吻。我们这种预测行为的能力是来自于生活经验带来的直觉。另一方面,机器在利用上述复杂知识方面存在很大困难。能够预测行为的计算机系统将在以下方面带来新的可能性:能够在人类环境中更好地导航的机器人;可以预测人类摔倒的急救反应系统;能够在不同情况下提供行动建议的头戴设备等。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在预测视觉方面取得了一项重要的新突破。他们开发了一种算法,能够比以前更准确地预测互动过程。

经过YouTube上的视频和“办公室”、“绝望主妇”等电视剧的训练,这个系统可预测两个人是否会拥抱、亲吻、握手或相互击掌。它也可以预测在一个视频中某个时刻的五秒钟后可能会出现什么对象。人类的问候行为看起来像是随意的行为,因此这个任务可以看作一个供研究人员研究的更易控制的测试实例。该研究的主要人员之一Carl Vondrick表示:人类可以自动从经验中学会预测行为,而仅仅通过观看大量的视频,计算机就能够获得足够的知识来对它们周围的情况作出持续的预测。

以前的计算机视觉预测一般采用以下两种方法之一:第一种方法是观测一副图像的每个像素,并使用这些知识来创建达到照片画质的“未来”影像。Vondrick表示,逐个像素的操作“对职业画家来说是很困难的,但对一个算法而言则简单地多”。第二种方法是利用人工为计算机预标记场景,但对大规模的预测任务来说,这是不切实际的。

CSAIL团队创造的是一种能够用来预测“视觉表示”的算法,其呈现的主要内容是某个场景的多种可能后续场景的静态效果图像。Vondrick表示,与其给出单个像素值是蓝色的、下一个是红色的等结论,视觉表示更倾向于揭示较大图像的信息,如某个表示人脸的像素集合等。

该团队的算法采用了深度学习技术。这是一个人工智能领域,使用被称为“神经网络”的系统来训练计算机去研究大量的数据,以自动找到合适的工作模式。该算法的每一个网络给出的预测表示被自动归类为四个行动之一:在上述情况下,就是拥抱、握手、击掌或者接吻。随后系统将这些行为合并成一个,并将其作为预测结果。例如,有三个网络预测的结果是接吻行为,而另一个网络可能根据有另一个人进入场景的事实预测出结果将是一个拥抱。

在使用600小时的未标记视频对算法进行训练后,该团队测试了它在新视频中对行为和对象的预测效果。测试表明,该算法对人物下一动作的预测准确率超过了43%,而现有算法只能达到36%。在第二项研究中,该算法被要求根据某个视频中的一帧图像来预测五秒种后将出现什么对象。例如,看到有人打开微波炉可能预示着后面会出现咖啡杯。研究表明,该算法的平均预测准确率只有11%,它对单帧对象的预测准确率比基准准确率高30%。

值得一提的是,人的预测准确率为71%。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能快报 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档