MIT联手IBM发布超大数据集：100多万短视频，多维度标注

量子位

发布于 2018-03-23 10:06:24

1.2K0

发布于 2018-03-23 10:06:24

文章被收录于专栏：量子位

Root 编译整理量子位出品 | 公众号 QbitAI

除了CV、NLP、无人驾驶，AI的下一个热门方向是什么？

视频行为理解。

现在，对于AI来说，识别静态图片里的动物是喵?还是汪?已经是小case。但是，要AI判断出猫是在是坐在扫地机器人上满屋晃，还是在厨房里追着狗打还是挺困难的。

前者属于CV最早期研究的课题，而攻克了物体分类识别的问题后，越来越多的研究焦点聚在了视频理解上。不过，视频理解课题目前最大的难点在于，能用来训练视频里行为理解的数据集太少了。一个原因是人工标注特别费劲，二是对内存和计算能力要求太高。

针对这个难题，12月初，MIT和IBM联手发布了一个超大型的视频数据集平台，Moments in Time Dataset（http://moments.csail.mit.edu/），上面有超过100万个已经多维度标注的短视频。标注的运动对象除了人类，还有动物、物体。

虽然在数据量上，稍微比谷歌去年发布的YouTube-8M Dataset（https://research.google.com/youtube8m/，内有800万个标注的视频）差点儿，但是**在丰富度上，Moments in Time完胜。**

因为Moments in Time的每个视频数据的长度只有3秒，而油管8M的是120秒到500秒。视频长度更细致地划分，提高了行为解读的颗粒度。还能有效降低对内存和计算能力的要求。

△ 3秒视频标注示例

为什么是3秒？

之所以把视频长度定成3秒，是考虑到匹配我们人类的工作记忆的时长。工作记忆，相当于我们对视觉信息，尤其是动态信息的储存时间，一般是3秒。

大部分时候，我们人需要3秒时间，去观察并理解任一物体的动作意图，像是风在吹所以树在动，或一个物体从桌上掉落下来了，或和别人打招呼，捡起一个东西，和别人握手等。

如果时间跨度更长的话，行为更可能是简单动作的叠加，其背后有更复杂的含义。

比如一个人刚捡起来一样东西，然后拿着就快速地走，这样的行为可以被解读成偷东西，也可以是送快递。这还需要结合行为发生时的场景等其他信息。

不过在解读复杂行为之前，我们需要先把单一的动作标注清楚，捡东西-携带/搬运-跑。单一动作的正确标注，对视频理解技术来说，是非常关键和基础的一步工作。

视频理解有什么用？

“如果你想理解这个世界发生了什么事情，我们必须得理解行为，解读出动作背后的意义。而动作的信息量比静态图片的要大的多，所以从众多的视频中读取出行为的含义，简单说，就是视频行为理解，是我们现在很重视的研究方向。”参与了Moments in Time数据集平台项目的MIT首席视觉科学家Aude Oliva说。

Aude Oliva教授的研究方向是人机感知和意识方向，研究方法横跨了三个学科：神经生物学、心理学、计算机视觉。对这方面课题感兴趣的童鞋可以去看看她的主页，http://cvcl.mit.edu/Aude.htm。

拿大家听得最多的无人驾驶来说，这个技术只靠识别周围环境有什么物体是远远不够的，还必须及时判断行车环境中所有移动物体的运动方向速度和意图，来及时作出安全且合适的响应。

如果大家对Moments in Time Dataset怎么解决视频理解数据集标注的问题感兴趣，可以去翻翻他们的论文，里面有详细讨论标注词的筛选过程，以及标注维度的选择依据（声音、场景、物体）等核心问题。

最后，甩各种链接

Moments in Time Dataset根据地

http://moments.csail.mit.edu/

辣篇论文：

http://moments.csail.mit.edu/data/moments_paper.pdf

参考文章：

The Next Big Step for AI? Understanding Video

http://t.cn/RYeDNTa

Teaching Video Comprehension to AI, One Million Moments at a Time http://t.cn/RYk6XK5

IBM Research showcases AI advances @ NIPS 2017 http://t.cn/RY1CFv5

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-08，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据

人工智能

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

大数据

人工智能

登录后参与评论

0 条评论

热度