取代MNIST?德国时尚圈的科学家们推出基准数据集,全是衣裤鞋包

李林 编译整理 量子位 报道 | 公众号 QbitAI

MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数据集。

但是,总有人觉得MNIST不够好,想要扩充、改进、替代它。

今天,德国研究机构Zalando Research在GitHub上发布了一个名叫Fashion-MNIST的数据集,其中训练集包含60000个样例,测试集包含10000个样例,分为10类。样例都来自日常穿着的衣裤鞋包,每一个都是28×28的灰度图像。

除了内容不一样,这个数据集的图片尺寸、训练/测试集划分、文件的存储结构,都和MNIST一模一样。

这个数据集虽然名字里带有“fashion”,内容也都是服饰,但它的目标用途和时尚毫无关系:它致力于成为MNIST的替代品,用作机器学习算法的基准测试。

Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示

为什么要替代MNIST呢?

Zalando Research在这个数据集的说明中称,AI/机器学习/数据科学界的同学们搞出一个新算法之后,往往会先在MNIST上做基准测试,来验证这个算法。

于是,在这些群体之间流传着这样一种说法:如果一种算法连MNIST都搞不定,那它就是真没用;如果它能搞定MNIST,放到别的地方也不一定管用……

MNIST不好用,主要是因为它太简单了。甚至有人证明过,如果只是想区分开两个手写数字,很多时候识别一个像素就够了。

Google研究员、Keras作者François Chollet也曾经说,MNIST有很多问题,但其中最严重的一个,是它对于计算机视觉任务真的不具有代表性,做计算机视觉的算法,至少应该用CIFAR10这个复杂程度的数据集。

这次推出fashion-MNIST,想要取代MNIST的是德国研究机构Zalando Research,隶属于主营衣服鞋子的德国电商公司Zalando。

最后,如果你想试试这个fashion-MNIST数据集,请到https://github.com/zalandoresearch/fashion-mnist

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-08-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

精准营销神器之客户画像,你值得拥有!

现如今越来越多的用户偏爱线上交易,越来越少的人会选择去银行网点咨询,银行业要如何精准营销呢?相比传统的问卷调查,大数据金融科技可以更好地为银行赋能。

44730
来自专栏机器之心

演讲 | Yann LeCun清华演讲:深度学习与人工智能的未来

机器之心原创 作者:高静宜 2017 年 3 月 22 日下午,Facebook 人工智能研究院院长、纽约大学终身教授 Yann LeCun 在清华大学大礼堂为...

40580
来自专栏量子位

伯克利AI实验室新论文:没有成对训练数据也能做图像风格转换

允中 编译整理 量子位 出品 | 公众号 图片造假技术一直是计算机视觉研究的一个重点(大误)。 其实我们要说的,是图片风格的变换。要训练神经网络完成这种转换,通...

38260
来自专栏PaddlePaddle

卷积神经网络的发展历程

深度学习基础理论-CNN篇 卷积神经网络的发展历程 ? - 01 - 卷积神经网络(Convolutional Neural Networks,简称CN...

47870
来自专栏华章科技

大数据揭秘:低学历成功逆袭概率多少?

无奈国内反智主义盛行的大环境侵犯到了每一个受过高等教育的人的切身利益,总得有人站出来发声。

11830
来自专栏AI科技评论

干货 | 深度学习的可解释性研究(一):让模型「说人话」

不以人类可以理解的方式给出的解释都叫耍流氓,因此,我们要让模型「说人话」。只要记住这三个字,你就差不多把握了可解释性的精髓所在。

16030
来自专栏量化投资与机器学习

【全网首发】——机器学习该如何应用到量化投资系列(一)

有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面...

40480
来自专栏CDA数据分析师

【总结】奇异值分解在缺失值填补中的应用都有哪些?

作者 Frank 本文为 CDA 数据分析师志愿者 Frank原创作品,转载需授权 奇异值分解算法在协同过滤中有着广泛的应用。协同过滤有这样一个假设,即过去某些...

29460
来自专栏CreateAMind

自动驾驶核心技术之三:环境感知

自动驾驶四大核心技术,分别是环境感知、精确定位、路径规划、线控执行。环境感知是其中被研究最多的部分,不过基于视觉的环境感知是无法满足无人驾驶要求的。

57520
来自专栏AI科技评论

深度 | 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?

melmcgowan 上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask ...

29950

扫码关注云+社区

领取腾讯云代金券