【新智元导读】谷歌昨天发布消息,更新了此前开源的含上万个视频的大规模数据集 Youtube-8M,新的数据集除了标签升级,还首次包含了预计算的音频特征(pre-computed audio features),有助于联合视听(时间)建模。此外,谷歌还联合Kaggle举办了视频理解竞赛,邀请参与者使用Youtube-8M作为训练数据,利用谷歌云机器学习平台构建视听内容分类模型。相关内容会在今年的CVPR会议上作为Workshop 展出。
去年9月,我们发布了YouTube-8M数据集,该数据集涵盖上千万个代表标记的视频,包括数千个类型,为了促进大规模视频理解的创新和进步。最近,Google的其他团队发布了数据集,比如 Open Images和YouTube-BoundingBoxes 用于加速图像和视频的理解。为了实现这些目标,今天,我们发布了YouTube-8M数据集的更新,并与Google Cloud Machine Learning 和 kaggle.com 合作,组织了一个视频理解比赛,这也是CVPR'17的一个研讨会内容。
更新的YouTube-8M,首次纳入预计算音频特征
全新改进的 YouTube-8M 包括更干净和更详细的标签(平均每个视频的标签数量的两倍),清理过的视频集,以及包括预先计算的音频功能,基于除了先前发布的视觉特征之外,还首次将与计算的音频特征(pre-computed audio features)包括了进来,这些特征是基于最先进的音频建模架构。音频和视觉特征在时间上以1秒的时间粒度同步,这使得YouTube-8M成为大规模多模态数据集,并为联合视听(时间)建模(joint audio-visual (temporal) modeling)的新研究打开了机会。
新版本的主要统计信息如下所示。
更新后的YouTube-8M数据集的tree-map可视化,分为24个高级垂直类别,包括前200个最常见的实体,以及每个类别的前5个实体。
YouTube-8M数据集中前18个高级类别里的视频示例。
Google Cloud和YouTube-8M视频理解挑战
与Google Cloud和kaggle.com合作,我们还举办了Google Cloud和YouTube-8M视频理解挑战。挑战邀请参与者使用YouTube-8M作为训练数据,构建视听内容分类模型,然后标记大约700K的测试视频(用做测试的视频是系统没有见过的)。这是一个由Google Cloud赞助的Kaggle比赛,表现最佳的玩家将获得10万美元奖金。
Google Cloud还提供“credit”,方便参与者选择使用Google Cloud Machine Learning进行模型培训和探索。开源TensorFlow代码为YouTube-8M实现了一些基线分类模型和培训和评估脚本,这些都可以在Github上找到。有关开始本地或基于云的培训的详细信息,请参阅我们的README和Kaggle入门指南。
CVPR 2017 研讨会介绍
我们将在2017年7月26日举行的第一届YouTube-8M研讨会上,在CVPR 2017会议上宣布挑战的结果。研讨会还将邀请挑战赛第一名做演示报告。欢迎提交基于YouTube-8M数据集的新颖研究、实验或应用的论文。
我们希望这个大规模、多样化的数据集能够推广到许多视频域(YouTube-8M捕获超过20个不同的视频域)。我们相信这一挑战赛也可以加速视频理解研究发展和创新。
编译原文:https://research.googleblog.com/2017/02/an-updated-youtube-8m-video.html