MIT联手IBM发布超大数据集:100多万短视频,多维度标注

Root 编译整理 量子位 出品 | 公众号 QbitAI

除了CV、NLP、无人驾驶,AI的下一个热门方向是什么?

视频行为理解。

现在,对于AI来说,识别静态图片里的动物是喵?还是汪?已经是小case。但是,要AI判断出猫是在是坐在扫地机器人上满屋晃,还是在厨房里追着狗打还是挺困难的。

前者属于CV最早期研究的课题,而攻克了物体分类识别的问题后,越来越多的研究焦点聚在了视频理解上。不过,视频理解课题目前最大的难点在于,能用来训练视频里行为理解的数据集太少了。一个原因是人工标注特别费劲,二是对内存和计算能力要求太高

针对这个难题,12月初,MIT和IBM联手发布了一个超大型的视频数据集平台,Moments in Time Dataset(http://moments.csail.mit.edu/),上面有超过100万个已经多维度标注的短视频。标注的运动对象除了人类,还有动物、物体。

虽然在数据量上,稍微比谷歌去年发布的YouTube-8M Dataset(https://research.google.com/youtube8m/,内有800万个标注的视频)差点儿,但是**在丰富度上,Moments in Time完胜。**

因为Moments in Time的每个视频数据的长度只有3秒,而油管8M的是120秒到500秒。视频长度更细致地划分,提高了行为解读的颗粒度。还能有效降低对内存和计算能力的要求。

3秒视频标注示例

为什么是3秒?

之所以把视频长度定成3秒,是考虑到匹配我们人类的工作记忆的时长。工作记忆,相当于我们对视觉信息,尤其是动态信息的储存时间,一般是3秒。

大部分时候,我们人需要3秒时间,去观察并理解任一物体的动作意图,像是风在吹所以树在动,或一个物体从桌上掉落下来了,或和别人打招呼,捡起一个东西,和别人握手等。

如果时间跨度更长的话,行为更可能是简单动作的叠加,其背后有更复杂的含义。

比如一个人刚捡起来一样东西,然后拿着就快速地走,这样的行为可以被解读成偷东西,也可以是送快递。这还需要结合行为发生时的场景等其他信息。

不过在解读复杂行为之前,我们需要先把单一的动作标注清楚,捡东西-携带/搬运-跑。单一动作的正确标注,对视频理解技术来说,是非常关键和基础的一步工作。

视频理解有什么用?

“如果你想理解这个世界发生了什么事情,我们必须得理解行为,解读出动作背后的意义。而动作的信息量比静态图片的要大的多,所以从众多的视频中读取出行为的含义,简单说,就是视频行为理解,是我们现在很重视的研究方向。”参与了Moments in Time数据集平台项目的MIT首席视觉科学家Aude Oliva说。

Aude Oliva教授的研究方向是人机感知和意识方向,研究方法横跨了三个学科:神经生物学、心理学、计算机视觉。对这方面课题感兴趣的童鞋可以去看看她的主页,http://cvcl.mit.edu/Aude.htm。

拿大家听得最多的无人驾驶来说,这个技术只靠识别周围环境有什么物体是远远不够的,还必须及时判断行车环境中所有移动物体的运动方向速度和意图,来及时作出安全且合适的响应。

如果大家对Moments in Time Dataset怎么解决视频理解数据集标注的问题感兴趣,可以去翻翻他们的论文,里面有详细讨论标注词的筛选过程,以及标注维度的选择依据(声音、场景、物体)等核心问题。

最后,甩各种链接

Moments in Time Dataset根据地

http://moments.csail.mit.edu/

辣篇论文:

http://moments.csail.mit.edu/data/moments_paper.pdf

参考文章:

The Next Big Step for AI? Understanding Video

http://t.cn/RYeDNTa

Teaching Video Comprehension to AI, One Million Moments at a Time http://t.cn/RYk6XK5

IBM Research showcases AI advances @ NIPS 2017 http://t.cn/RY1CFv5

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-12-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

NLP秘笈,从入门到进阶

自然语言处理(NLP)作为人工智能研究的核心领域之一,长久以来都受到广泛关注。微软全球执行副总裁沈向洋博士曾表示“ 懂语言者得天下,人工智能对人类影响最为深刻的...

35590
来自专栏数据科学与人工智能

【统计学习】为什么同一问题统计专家、机器学习专家解决方法差别那么大?

乍一看,机器学习和统计似乎是非常相似的,大家几乎不强调这两个学科之间的差异。机器学习和统计有着相同的目标 ——它们都关注数据建模,但他们的使用方法却因为它们文化...

29560
来自专栏PPV课数据科学社区

神奇的数据挖掘

谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例...

40360
来自专栏人工智能头条

如何成为一名自然语言处理工程师

22330
来自专栏数据猿

影创科技的创始人兼CEO孙立:AI在增强现实中怎么用

数据猿导读 我们在光学上做了非常多的研究。首先是现在国内外量产能力非常不错的一个产品,是自由曲面,通过可量产的方案解决增强现实眼镜价值比较贵的问题。当然如果个人...

46550
来自专栏IT派

干货 | 面试官是如何看出你机器学习水平的?

面试官如何判断面试者的机器学习水平? 首先这个问题问的很广。做机器学习方向很多,有些公司更偏重于数据挖掘,而有些更倾向于深度学习。同理,相对应的岗位有些偏重理...

48360
来自专栏机器之心

中到英新闻翻译媲美人类,微软机器翻译新突破

机器之心报道 参与:机器之心编辑部 今日,微软研究团队表示,微软和微软亚研创造了首个在质量与准确率上匹配人类水平的中英新闻机器翻译系统。黄学东告诉机器之心,他们...

29650
来自专栏新智元

【深度】AI 入侵翻译,神经机器翻译进化让巴别塔7年内成真

【新智元导读】 随着AlphaGo战胜柯洁,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。深度学习的出现极大地变革了机...

596180
来自专栏人工智能快报

微软教会人工智能看图写故事

微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可...

39590
来自专栏CDA数据分析师

薪酬那么高的机器学习岗位,究竟是怎么面试人的?

首先这个问题问的很广。做机器学习方向很多,有些公司更偏重于数据挖掘,而有些更倾向于深度学习。同理,相对应的岗位有些偏重理论也有些偏重实践。这些因素叠加造成了机器...

35280

扫码关注云+社区

领取腾讯云代金券