前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌开源超大型视频数据库,含800万视频 (附技术报告)

谷歌开源超大型视频数据库,含800万视频 (附技术报告)

作者头像
新智元
发布2018-03-23 16:29:10
1.8K0
发布2018-03-23 16:29:10
举报
文章被收录于专栏:新智元新智元

9月28日,谷歌在官方博客上宣布,将含有800万个Youtube 视频URL 的视频数据库开源,视频总时长达到了50万个小时。一并发布的还有从包含了4800个知识图谱分类数据集中提取的视频级别标签。

这一数据库在规模和覆盖的种类上都比现有的视频数据库有显著提升。例如,较为著名的Sports-1M数据库,就只由100万个Youtube 视频和500个运动类目。谷歌官方博客上说,在视频的数量和种类上,Youtube-8M代表的是几乎指数级的增长。

“为了保证标签视频数据库的稳定性和质量,我们只采用浏览量超过1000的公共视频资源,随后,我们会构建一个多样化的词汇类目,这一类目在视觉上是可以观察得到的,也足够频繁。词汇的构建结合了频次分析、自动过滤、人为评价验证,并分为24个垂直分类”,谷歌博客写道。

下图是数据集的首页截图,展示了数据集的规模和多样性。

要在Youtube-8M 规模的数据库上理解视频,一般要求千万亿字节的视频存储和几十个CPU的消耗。未来让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌们对视频进行了预处理,并提取了帧级别的特征。使用的是最新的深度学习技术——通过ImageNet训练的开源 Inception-V3 图像注释模型。

这些特征的提取是在1帧每秒的瞬时分辨率上完成,从190万个视频帧中提取,并被压缩到可以放到一个硬盘中(小于1.5T)。

这样以来,只需要不到一天的时间,就可以下载这一数据库并在训练一个基本的TensorFlow模型。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档