以下内容来自Google Research Blog,量子位编译
当今机器学习中最具挑战性的研究领域之一,是使计算机能够理解一个场景是什么。例如,虽然人类知道一个消失在墙后接着很快重现的小球,很可能是同一个对象,但这对于一个算法来说并不明显。理解这一点不仅需要视频每帧中包含什么对象的全局图片,而且还需要这些对象位于帧内的位置和它们随时间变化的位置。就在去年,我们发布了YouTube-8M,这是一个由自动标注的YouTube视频组成的数据集。虽然这有助于在该领域的进一步发展,但它只是一块拼图。
今天,为了促进视频理解研究的进展,我们引入了YouTube-BoundingBoxes,一个由5百万个包围23类对象的边框组成的数据集,基于21万个YouTube视频进行密集标注。到目前为止,这是包含边框的最大的手动注释视频数据集,其在时间上连续的帧中跟踪对象。数据集被设计得足够大以训练大规模模型,并且代表在自然环境中捕获的视频。重要的是,人类标记的注释包含这样的对象:当它们在现实世界中出现时,可能会有部分遮挡、运动模糊和接受自然光照。
此数据集的关键特征是为整个视频段提供边框注释。这些边框注释可以用于训练随时间识别,定位和跟踪对象的模型。在视频中,单个带注释的对象可能完全被遮挡,并在以后的帧中返回。单个对象的这些注释有时不能从各个帧识别,但是如果对象被精确地定位和跟踪,则可以在视频的上下文中理解和识别。
我们希望这个数据集可能最终有助于计算机视觉和机器学习社区,并导致分析和理解现实世界视觉问题的新方法。您可以在此关联的预印本中了解有关数据集的更多信息。
这项工作得到了Xin Pan和Thomas Silva的大力帮助,以及Manfred Georg、Sami Abu-El-Haija、Susanna Ricco和George Toderici的支持和建议。
相关论文地址:https://arxiv.org/abs/1702.00824
数据集下载地址:https://research.google.com/youtube-bb/