腾讯开源业内最大多标签图像数据集,附ResNet-101模型

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI

鹅厂福利,又是开源。

最迟本月月底,腾讯AI Lab将开源“Tencent ML-Images”项目。

不仅要开源多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101。

业内最大规模

值得注意的是,这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中,规模最大,一般科研机构及中小企业的使用场景,应该够了。

此前,业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。

所以一旦腾讯ML-Images开源,毫无疑问将成为业内规模最大。

不过腾讯方面认为,不光是数量规模上够诚意,在项目细节上,也都颇为用心:

大规模的多标签图像数据集的构建方法,包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中,团队充分利用了类别语义关系来帮助对图像的精准标注。

基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法,可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

基于ML-Images训练得到的ResNet-101模型,具有优异的视觉表示能力和泛化性能。通过迁移学习,该模型在ImageNet验证集上取得了80.73%的top-1分类精度,超过谷歌同类模型(迁移学习模式)的精度,且值得注意的是,ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

(注:微软ResNet-101模型为非迁移学习模式下训练得到,即1.2M预训练图像为原始数据集ImageNet的图像。)

ResNet-101模型

而同时提供的深度残差网络ResNet-101,是腾讯AI Lab基于ML-Images训练得到的。

腾讯方面介绍,该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

“Tencent ML-Images”项目的深度学习模型,目前已在腾讯多项业务中发挥重要作用,如“天天快报”的图像质量评价与推荐功能。

比如,天天快报新闻封面图像的质量得到明显提高。

此外,腾讯AI Lab团队还将基于Tencent ML-Images的ResNet-101模型迁移到很多其他视觉任务,包括图像物体检测,图像语义分割,视频物体分割,视频物体跟踪等。

这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。

当然,最后顺路一提,鹅厂近年来在开源方面真是越干越勇。

自2016年首次在GitHub上发布开源项目(https://github.com/Tencent)以来,腾讯目前已有57个开源项目在列,领域覆盖了人工智能、移动开发、小程序……

嗯,好事情,再接再厉~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 北京大学王立威教授:机器学习理论的回顾与展望(下)

AI科技评论按:本文根据王立威教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《机器学习理论:回顾与展望》编辑整理而来,AI科技评论...

43913
来自专栏量化投资与机器学习

LSTM Networks在股票市场上的探究

LSTM Networks 简介 LSTM Networks是递归神经网络(RNNs)的一种,该算法由Sepp Hochreiter和Jurgen Schmid...

3797
来自专栏人工智能LeadAI

大数据和机器学习相关概念

01 大数据的定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发...

3637
来自专栏AI科技评论

学界 | 机器学习十大算法都是何方神圣?看完你就懂了

AI科技评论按:机器学习与人工智能变得越来越热。大数据原本在工业界中就已经炙手可热,而基于大数据的机器学习则更加流行,因为其通过对数据的计算,可以实现数据预测、...

3485
来自专栏机器人网

机器学习工程师最常用的十大算法

毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一...

4368
来自专栏机器之心

解读 | 艺术家如何借助神经网络进行创作?

机器之心原创 作者:Liao 参与:王灏、吴沁桐 1. 艺术家如何理解神经网络? David Aslan 是一个传统油画家,但他同时也对与艺术相关的科学技术有着...

2584
来自专栏人工智能头条

机器学习和统计模型的差异

2162
来自专栏AI科技评论

开发 | Kaggle亚马逊比赛冠军专访:利用标签相关性来处理分类问题

AI科技评论消息,近日,Kaggle Blog上刊登了对「Planet: Understanding the Amazon from Space」比赛冠军的专访...

3618
来自专栏AI研习社

Kaggle亚马逊比赛冠军专访:利用标签相关性来处理分类问题

近日,Kaggle Blog上刊登了对「Planet: Understanding the Amazon from Space」比赛冠军的专访,在访问中,我们了...

4118
来自专栏CreateAMind

开发出赋予计算机理解世界能力的算法和技术

962

扫码关注云+社区

领取腾讯云代金券