前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大手笔!YouTube放出史上最大已标注视频数据集

大手笔!YouTube放出史上最大已标注视频数据集

作者头像
量子位
发布2018-01-30 15:35:05
9670
发布2018-01-30 15:35:05
举报
文章被收录于专栏:量子位量子位

以下内容来自Google Research Blog,量子位编译

当今机器学习中最具挑战性的研究领域之一,是使计算机能够理解一个场景是什么。例如,虽然人类知道一个消失在墙后接着很快重现的小球,很可能是同一个对象,但这对于一个算法来说并不明显。理解这一点不仅需要视频每帧中包含什么对象的全局图片,而且还需要这些对象位于帧内的位置和它们随时间变化的位置。就在去年,我们发布了YouTube-8M,这是一个由自动标注的YouTube视频组成的数据集。虽然这有助于在该领域的进一步发展,但它只是一块拼图。

今天,为了促进视频理解研究的进展,我们引入了YouTube-BoundingBoxes,一个由5百万个包围23类对象的边框组成的数据集,基于21万个YouTube视频进行密集标注。到目前为止,这是包含边框的最大的手动注释视频数据集,其在时间上连续的帧中跟踪对象。数据集被设计得足够大以训练大规模模型,并且代表在自然环境中捕获的视频。重要的是,人类标记的注释包含这样的对象:当它们在现实世界中出现时,可能会有部分遮挡、运动模糊和接受自然光照。

此数据集的关键特征是为整个视频段提供边框注释。这些边框注释可以用于训练随时间识别,定位和跟踪对象的模型。在视频中,单个带注释的对象可能完全被遮挡,并在以后的帧中返回。单个对象的这些注释有时不能从各个帧识别,但是如果对象被精确地定位和跟踪,则可以在视频的上下文中理解和识别。

我们希望这个数据集可能最终有助于计算机视觉和机器学习社区,并导致分析和理解现实世界视觉问题的新方法。您可以在此关联的预印本中了解有关数据集的更多信息。

致谢

这项工作得到了Xin Pan和Thomas Silva的大力帮助,以及Manfred Georg、Sami Abu-El-Haija、Susanna Ricco和George Toderici的支持和建议。

相关论文地址:https://arxiv.org/abs/1702.00824

数据集下载地址:https://research.google.com/youtube-bb/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 致谢
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档