如果计算机能识别静态图像中猫或鸭子,它就很聪明了。但人工智能将面临一个更加严苛的考验:理解猫咪正骑在Roomba扫地机器人上,围着厨房追赶鸭子。
请点击此处输入图片描述
MIT和IBM上周发布了一个海量视频数据集。这些视频都被精心配上了和正在发生的动作细节相关的标注。这个数据集叫做时光数据集(Moments in Time Dataset),其中包含了各种动作的3秒视频片段,从钓鱼到霹雳舞,应有尽有。
“世界上有很多事情每一秒都在发生变化,”该项目负责人之一、MIT首席研究科学家奥德·奥利瓦(Aude Oliva)说,“如果你想理解某件事为何发生,动作能给你许多无法从一帧画面中捕捉到的信息。”
人工智能当下的繁荣部分归因于人们成功教会了计算机识别静态图像的内容,这是通过利用大量带标签的数据集训练深度神经网络来实现的。
如今能理解视频的AI系统,包括某些自动驾驶汽车中的系统,经常依赖于识别静态画面中的物体,并不是通过理解动作。上周一,谷歌发布了一个能识别视频中的物体的工具,这一工具是谷歌云平台的一部分。该平台已经包含处理图像、音频和文本的AI工具。
下一个挑战是,在教会机器理解视频包含的内容之外,还要教它们理解视频片段中发生的事情。这可能有一些实际的好处,或许能带来更有效的搜索、标注及挖掘视频片段的新方法。它还能让机器人或自动驾驶汽车更好地理解其周围的世界是如何运转的。
事实上,有几个视频数据集都在推动训练机器理解真实世界中的行动,这个由MIT与IBM合作的项目只是其中之一。比如,去年谷歌发布了一个名为YouTube-8M的数据集,其中包含800万个有标记的YouTube视频。Facebook正在开发一个带标注的视频动作数据集,叫做“场景、动作和物体数据集”(Scenes, Actions, and Objects set)。
普林斯顿大学助理教授奥尔加·拉科夫斯基(Olga Russakovsky)主要研究计算机视觉,她说开发实用的视频数据集被证实其实很难,因为和静态图像相比,视频需要更大的储存空间和计算能力。“能用这些新数据做研究,我感到很兴奋,”她说,“我认为3秒的长度很好——能在提供瞬时情境的同时保持较低的储存和计算要求。”
其他人正在尝试一种更创新的方式。位于多伦多和柏林的初创企业Twenty Billion Neurons通过众包雇人执行简单的任务,创建了一个定制的数据集。该公司的联合创始人之一罗兰·梅米舍维奇(Roland Memisevic)说,公司还使用了一个专门处理瞬时视觉信息设计的神经网络。
“用其他数据集训练的网络能告诉你,视频里是一场足球赛还是一场派对,”他说,“我们的网络能告诉你,某个人是否刚走进房间。”
参与该项目的IBM研究员丹尼·古弗兰(Danny Gutfreund)表示,有效识别动作的前提是,机器学会理解某个人做某个动作后,可以把这个知识转移到另一个情境,比如某个动物正在做同样的动作。这个领域叫做迁移学习,该领域的进展对AI的未来十分重要。他说:“让我们拭目以待机器是如何进行迁移学习这种我们人类十分擅长的类比行为的。”
古弗兰补充道,这项技术可能有实际应用。“它能被用于老年人看护领域,辨别某人是否摔倒,或他们是否吃了药,”他说,“你还能设计帮助盲人的装置。”
领取专属 10元无门槛券
私享最新 技术干货