前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MIT联手IBM发布超大数据集:100多万短视频,多维度标注

MIT联手IBM发布超大数据集:100多万短视频,多维度标注

作者头像
量子位
发布2018-03-23 10:06:24
1.1K0
发布2018-03-23 10:06:24
举报
文章被收录于专栏:量子位量子位
Root 编译整理 量子位 出品 | 公众号 QbitAI

除了CV、NLP、无人驾驶,AI的下一个热门方向是什么?

视频行为理解。

现在,对于AI来说,识别静态图片里的动物是喵?还是汪?已经是小case。但是,要AI判断出猫是在是坐在扫地机器人上满屋晃,还是在厨房里追着狗打还是挺困难的。

前者属于CV最早期研究的课题,而攻克了物体分类识别的问题后,越来越多的研究焦点聚在了视频理解上。不过,视频理解课题目前最大的难点在于,能用来训练视频里行为理解的数据集太少了。一个原因是人工标注特别费劲,二是对内存和计算能力要求太高

针对这个难题,12月初,MIT和IBM联手发布了一个超大型的视频数据集平台,Moments in Time Dataset(http://moments.csail.mit.edu/),上面有超过100万个已经多维度标注的短视频。标注的运动对象除了人类,还有动物、物体。

虽然在数据量上,稍微比谷歌去年发布的YouTube-8M Dataset(https://research.google.com/youtube8m/,内有800万个标注的视频)差点儿,但是**在丰富度上,Moments in Time完胜。**

因为Moments in Time的每个视频数据的长度只有3秒,而油管8M的是120秒到500秒。视频长度更细致地划分,提高了行为解读的颗粒度。还能有效降低对内存和计算能力的要求。

3秒视频标注示例

为什么是3秒?

之所以把视频长度定成3秒,是考虑到匹配我们人类的工作记忆的时长。工作记忆,相当于我们对视觉信息,尤其是动态信息的储存时间,一般是3秒。

大部分时候,我们人需要3秒时间,去观察并理解任一物体的动作意图,像是风在吹所以树在动,或一个物体从桌上掉落下来了,或和别人打招呼,捡起一个东西,和别人握手等。

如果时间跨度更长的话,行为更可能是简单动作的叠加,其背后有更复杂的含义。

比如一个人刚捡起来一样东西,然后拿着就快速地走,这样的行为可以被解读成偷东西,也可以是送快递。这还需要结合行为发生时的场景等其他信息。

不过在解读复杂行为之前,我们需要先把单一的动作标注清楚,捡东西-携带/搬运-跑。单一动作的正确标注,对视频理解技术来说,是非常关键和基础的一步工作。

视频理解有什么用?

“如果你想理解这个世界发生了什么事情,我们必须得理解行为,解读出动作背后的意义。而动作的信息量比静态图片的要大的多,所以从众多的视频中读取出行为的含义,简单说,就是视频行为理解,是我们现在很重视的研究方向。”参与了Moments in Time数据集平台项目的MIT首席视觉科学家Aude Oliva说。

Aude Oliva教授的研究方向是人机感知和意识方向,研究方法横跨了三个学科:神经生物学、心理学、计算机视觉。对这方面课题感兴趣的童鞋可以去看看她的主页,http://cvcl.mit.edu/Aude.htm。

拿大家听得最多的无人驾驶来说,这个技术只靠识别周围环境有什么物体是远远不够的,还必须及时判断行车环境中所有移动物体的运动方向速度和意图,来及时作出安全且合适的响应。

如果大家对Moments in Time Dataset怎么解决视频理解数据集标注的问题感兴趣,可以去翻翻他们的论文,里面有详细讨论标注词的筛选过程,以及标注维度的选择依据(声音、场景、物体)等核心问题。

最后,甩各种链接

Moments in Time Dataset根据地

http://moments.csail.mit.edu/

辣篇论文:

http://moments.csail.mit.edu/data/moments_paper.pdf

参考文章:

The Next Big Step for AI? Understanding Video

http://t.cn/RYeDNTa

Teaching Video Comprehension to AI, One Million Moments at a Time http://t.cn/RYk6XK5

IBM Research showcases AI advances @ NIPS 2017 http://t.cn/RY1CFv5

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么是3秒?
  • 视频理解有什么用?
  • 最后,甩各种链接
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档