大手笔！YouTube放出史上最大已标注视频数据集

量子位

发布于 2018-01-30 15:35:05

1.1K0

发布于 2018-01-30 15:35:05

文章被收录于专栏：量子位

以下内容来自Google Research Blog，量子位编译

当今机器学习中最具挑战性的研究领域之一，是使计算机能够理解一个场景是什么。例如，虽然人类知道一个消失在墙后接着很快重现的小球，很可能是同一个对象，但这对于一个算法来说并不明显。理解这一点不仅需要视频每帧中包含什么对象的全局图片，而且还需要这些对象位于帧内的位置和它们随时间变化的位置。就在去年，我们发布了YouTube-8M，这是一个由自动标注的YouTube视频组成的数据集。虽然这有助于在该领域的进一步发展，但它只是一块拼图。

今天，为了促进视频理解研究的进展，我们引入了YouTube-BoundingBoxes，一个由5百万个包围23类对象的边框组成的数据集，基于21万个YouTube视频进行密集标注。到目前为止，这是包含边框的最大的手动注释视频数据集，其在时间上连续的帧中跟踪对象。数据集被设计得足够大以训练大规模模型，并且代表在自然环境中捕获的视频。重要的是，人类标记的注释包含这样的对象：当它们在现实世界中出现时，可能会有部分遮挡、运动模糊和接受自然光照。

此数据集的关键特征是为整个视频段提供边框注释。这些边框注释可以用于训练随时间识别，定位和跟踪对象的模型。在视频中，单个带注释的对象可能完全被遮挡，并在以后的帧中返回。单个对象的这些注释有时不能从各个帧识别，但是如果对象被精确地定位和跟踪，则可以在视频的上下文中理解和识别。

我们希望这个数据集可能最终有助于计算机视觉和机器学习社区，并导致分析和理解现实世界视觉问题的新方法。您可以在此关联的预印本中了解有关数据集的更多信息。

致谢

这项工作得到了Xin Pan和Thomas Silva的大力帮助，以及Manfred Georg、Sami Abu-El-Haija、Susanna Ricco和George Toderici的支持和建议。

相关论文地址：https://arxiv.org/abs/1702.00824
数据集下载地址：https://research.google.com/youtube-bb/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-02-07，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

大数据

登录后参与评论

0 条评论

热度

大手笔！YouTube放出史上最大已标注视频数据集

大手笔！YouTube放出史上最大已标注视频数据集

致谢

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐