前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征

CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征

作者头像
新智元
发布2018-03-27 14:45:16
9670
发布2018-03-27 14:45:16
举报
文章被收录于专栏:新智元新智元

【新智元导读】谷歌昨天发布消息,更新了此前开源的含上万个视频的大规模数据集 Youtube-8M,新的数据集除了标签升级,还首次包含了预计算的音频特征(pre-computed audio features),有助于联合视听(时间)建模。此外,谷歌还联合Kaggle举办了视频理解竞赛,邀请参与者使用Youtube-8M作为训练数据,利用谷歌云机器学习平台构建视听内容分类模型。相关内容会在今年的CVPR会议上作为Workshop 展出。

去年9月,我们发布了YouTube-8M数据集,该数据集涵盖上千万个代表标记的视频,包括数千个类型,为了促进大规模视频理解的创新和进步。最近,Google的其他团队发布了数据集,比如 Open Images和YouTube-BoundingBoxes 用于加速图像和视频的理解。为了实现这些目标,今天,我们发布了YouTube-8M数据集的更新,并与Google Cloud Machine Learning 和 kaggle.com 合作,组织了一个视频理解比赛,这也是CVPR'17的一个研讨会内容。

更新的YouTube-8M,首次纳入预计算音频特征

全新改进的 YouTube-8M 包括更干净和更详细的标签(平均每个视频的标签数量的两倍),清理过的视频集,以及包括预先计算的音频功能,基于除了先前发布的视觉特征之外,还首次将与计算的音频特征(pre-computed audio features)包括了进来,这些特征是基于最先进的音频建模架构。音频和视觉特征在时间上以1秒的时间粒度同步,这使得YouTube-8M成为大规模多模态数据集,并为联合视听(时间)建模(joint audio-visual (temporal) modeling)的新研究打开了机会。

新版本的主要统计信息如下所示。

更新后的YouTube-8M数据集的tree-map可视化,分为24个高级垂直类别,包括前200个最常见的实体,以及每个类别的前5个实体。

YouTube-8M数据集中前18个高级类别里的视频示例。

Google Cloud和YouTube-8M视频理解挑战

与Google Cloud和kaggle.com合作,我们还举办了Google Cloud和YouTube-8M视频理解挑战。挑战邀请参与者使用YouTube-8M作为训练数据,构建视听内容分类模型,然后标记大约700K的测试视频(用做测试的视频是系统没有见过的)。这是一个由Google Cloud赞助的Kaggle比赛,表现最佳的玩家将获得10万美元奖金。

Google Cloud还提供“credit”,方便参与者选择使用Google Cloud Machine Learning进行模型培训和探索。开源TensorFlow代码为YouTube-8M实现了一些基线分类模型和培训和评估脚本,这些都可以在Github上找到。有关开始本地或基于云的培训的详细信息,请参阅我们的README和Kaggle入门指南。

CVPR 2017 研讨会介绍

我们将在2017年7月26日举行的第一届YouTube-8M研讨会上,在CVPR 2017会议上宣布挑战的结果。研讨会还将邀请挑战赛第一名做演示报告。欢迎提交基于YouTube-8M数据集的新颖研究、实验或应用的论文。

我们希望这个大规模、多样化的数据集能够推广到许多视频域(YouTube-8M捕获超过20个不同的视频域)。我们相信这一挑战赛也可以加速视频理解研究发展和创新。

编译原文:https://research.googleblog.com/2017/02/an-updated-youtube-8m-video.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档