腾讯AI Lab开源业内最大规模多标签图像数据集

注:文末有【每日一题】,欢迎打卡

前戏

最近有朋友反映公众号的文章质量下降,比如没有原创血液,Amusi 表示很无奈,最近比较忙,就连之前报名的比赛很久没上手弄了。

CVer公众号接下来会推送最新的原创内容:

  • 一种新的标注软件
  • PyTorch新工具包
  • 目标检测最强综述(两篇paper,其中一篇106页)
  • 一种新的医学图像数据集

敬请期待

Tencent ML-Images

转载:腾讯AI Lab宣布将于9月底开源“Tencent ML-Images”项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101构成。

该项目的开源,是腾讯AI Lab在计算机视觉领域所累积的基础能力的一次释放,为人工智能领域的科研人员和工程师提供充足的高质量训练数据,及简单易用、性能强大的深度学习模型,促进人工智能行业共同发展。

腾讯AI Lab此次公布的图像数据集ML-Images,包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。此外,腾讯AI Lab还将提供基于ML-Images训练得到的深度残差网络ResNet-101。该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

以深度神经网络为典型代表的深度学习技术已经在很多领域充分展现出其优异的能力,尤其是计算机视觉领域,包括图像和视频的分类、理解和生成等重要任务。然而,要充分发挥出深度学习的视觉表示能力,必须建立在充足的高质量训练数据、优秀的模型结构和模型训练方法,以及强大的的计算资源等基础能力之上。

各大科技公司都非常重视人工智能基础能力的建设,都建立了仅面向其内部的大型图像数据集,例如谷歌的JFT-300M和Facebook的Instagram数据集。但这些数据集及其训练得到的模型都没有公开,对于一般的科研机构和中小企业来说,这些人工智能基础能力有着非常高的门槛。

当前业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。腾讯AI Lab此次开源的ML-Images数据集包括1800万训练图像和1.1万多常见物体类别,或将成为新的行业基准数据集。除了数据集,腾讯AI Lab团队还将在此次开源项目中详细介绍:

(1) 大规模的多标签图像数据集的构建方法,包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中,团队充分利用了类别语义关系来帮助对图像的精准标注。

(2) 基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法,可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

(3) 基于ML-Images训练得到的ResNet-101模型,具有优异的视觉表示能力和泛化性能。通过迁移学习,该模型在ImageNet验证集上取得了80.73%的top-1分类精度,超过谷歌同类模型(迁移学习模式)的精度,且值得注意的是,ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

注:微软ResNet-101模型为非迁移学习模式下训练得到,即1.2M预训练图像为原始数据集ImageNet的图像。

腾讯AI Lab此次开源的“Tencent ML-Images”项目,展现了腾讯在人工智能基础能力建设方面的努力,以及希望通过基础能力的开放促进行业共同发展的愿景。

“Tencent ML-Images”项目的深度学习模型,目前已在腾讯多项业务中发挥重要作用,如“天天快报”的图像质量评价与推荐功能。如下图所示,天天快报新闻封面图像的质量得到明显提高。

优化前 优化后

此外,腾讯AI Lab团队还将基于Tencent ML-Images的ResNet-101模型迁移到很多其他视觉任务,包括图像物体检测,图像语义分割,视频物体分割,视频物体跟踪等。这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。

昨天回忆

13.【单选题】在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题?

A 增加训练集量

B 减少神经网络隐藏层节点数

C 删除稀疏的特征 S

D SVM算法中使用高斯核/RBF核代替线性核

正确答案:D。

答案解析:一般情况下,越复杂的系统,过拟合的可能性就越高,一般模型相对简单的话泛化能力会更好一点。

B.一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合

D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。

每日一题

14.【多选题】以下哪些选项属于线性分类器准则?

A.感知准则函数

B.贝叶斯分类

C.支持向量机

D.Fisher准则

如何看到【每日一题】?

答:CVer每篇文章的底部、CVer微信群和CVerQQ群,这三个平台会同步推送。

Amusi会把每天更新的题目与答案都上传到【daily-question】。点击"阅读原文",即可访问

daily-question github:

https://github.com/amusi/daily-question

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

十年机器学习结果不可靠?伯克利MIT研究质疑了30个经典模型

10430
来自专栏人工智能头条

一文带你理解深度学习的局限性

11320
来自专栏量化投资与机器学习

【全网首发】——机器学习该如何应用到量化投资系列(一)

有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面...

39180
来自专栏量子位

DeepMind提出可微分逻辑编程,结合深度学习与符号程序优点

夏乙 编译自 DeepMind Blog 量子位 出品 | 公众号 QbitAI 神经网络的强大功能有目共睹,但它往往需要大量与目标测试领域数据分布相似的训练数...

34150
来自专栏奇点大数据

机器学习工程师必知的十大算法

作者 James Le ,译者 尚剑 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者...

35640
来自专栏企鹅号快讯

除了深度学习,你还应该了解这些发展方向

译者|严子怡 编辑|Emily AI 前线导读:毫无疑问,AI 的终极未来是达到并超越人类的智能。但是,这是一个非常遥远的目标。即使我们之中最乐观的人,也只敢打...

22760
来自专栏机器之心

初学者必读:IBM长文解读人工智能、机器学习和认知计算

选自IBM 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所...

46170
来自专栏AI科技评论

动态 | 商汤 37 篇论文入选 ECCV 2018,开源 mm-detection 检测库

AI 科技评论消息,9 月 8 日-14 日,2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,ECCV 每两年举办一次,与 CVPR、ICC...

14920
来自专栏数据科学与人工智能

【陆勤阅读】数据分析的主要困难与算法的重要性

数据分析的主要困难 我们碰到的数据通常有这样几个特点。一是数据量大。大家只要想一想,万维网上有多少网页,这些网页上有多少数据,就可以对现在碰到的数据量之大有点...

19250
来自专栏AI科技评论

动态 | 谷歌大脑用强化学习为移动设备量身定做最好最快的CNN模型

AI 科技评论按:卷积神经网络(CNN)被广泛用于图像分类、人脸识别、物体检测以及其他许多任务中。然而,为移动设备设计 CNN 模型是一个有挑战性的问题,因为移...

5810

扫码关注云+社区

领取腾讯云代金券