连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI

上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MNIST。

随后我们发现这个数据集引发了好多研究人员的关注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推荐了这个数据集,也引发了很多的讨论。

更令我们意外的是,量子位周日收到了Fashion-MNIST数据集作者的来信,而且是一封中文来信!嗯,就是那种阅读起来毫无压力的纯正简体中文~

直到这个时候,我们才意识到这个最近非常火的数据集,虽然出自一家德国公司,但是主要的作者是一位华人:肖涵(Han Xiao)。

“这个项目是为机器学习人工智能领域提供一个更有挑战性、更有趣的MNIST替代数据集”,肖涵博士再次谈到这个项目的意义。

对于这个数据集的表现,他提到:“我也收到了很多国内AI研究员良好的使用体验,他们表示在MNIST上区分不开的算法(0.1%之差)可以在Fashion-MNIST上很好的区分开来。”

最重要的是,肖涵博士告诉量子位,他已经在GitHub上为这个数据集增加了中文文档(README.zh-CN.md)。本文最后,量子位也会摘录部分其中的内容。另外,通过这个地址即可前往访问Fashion-MNIST数据集的更多详情:

github.com/zalandoresearch/fashion-mnist

关于肖涵博士,量子位也简单的查询了一下相关背景。他目前是德国公司Zalando旗下研究院NLP组的高级研究科学家。肖涵在慕尼黑工业大学获得硕士及博士学位,此前本科毕业于北京邮电大学。(下面放一张真人秀)

肖涵博士

最后,我们摘录Fashion-MNIST的中文文档部分内容如下。

FashionMNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

这个数据集的样子大致如下(每个类别占三行):

为什么要做这个数据集?

经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:”如果一个算法在MNIST不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其他数据上也可能不work!”

Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST的图片大小,训练、测试样本数及类别数与经典MNIST完全相同。

写给专业的机器学习研究者

我们是认真的。取代MNIST数据集的原因由如下几个:

MNIST太简单了,很多算法在测试集上的性能已经达到99.6%!不妨看看我们基于scikit-learn上对经典机器学习算法的评测 和这段代码: “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”(翻译:大多数MNIST只需要一个像素就可以区分开!)

MNIST被用烂了。参考:”Ian Goodfellow wants people to move away from mnist”(翻译:Ian Goodfellow希望人们不要再用MNIST了。)

MNIST数字识别的任务不代表现代机器学习。参考:”François Cholle: Ideas on MNIST do not transfer to real CV” (翻译:在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。)

其他

文档中还详尽描述了数据获取、类别标注、如何载入数据、评测等信息,另外作者还建立了一个讨论的聊天室。

目前相关论文已经在arXiv上发表,地址在此:

https://arxiv.org/abs/1708.07747

在量子位微信公众号(QbitAI)后台回复:“XH”两个字母,也可以获得我们放在网盘上的下载地址,就酱~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

斯坦福新深度学习系统 NoScope:视频对象检测快1000倍

【新智元导读】 斯坦福大学的新研究构建一个名为 NoScope 的深度学习视频对象检测系统,利用视频的局部性对 CNN 模型进行优化,相比当前性能最好的 YOL...

31150
来自专栏AI研习社

生成式对抗网络GAN有哪些最新的发展? | 2分钟读论文

来源 / Two Minute Papers 翻译 / 姜波 校对 / 凡江 整理 / 雷锋字幕组 本期论文:Optimizing the Latent Spa...

37050
来自专栏云社区全球资讯抢先看

新的算法将一键修复损坏的数字图像

技术可以使用人工神经网络的力量来一次处理单个图像中的多种类型的图像噪点和图像模糊。

19620
来自专栏杨熹的专栏

一文了解强化学习

虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应...

36660
来自专栏AI科技大本营的专栏

一文教你如何用Python预测股票价格

翻译 | AI科技大本营(rgznai100) 参与 | 刘畅 编辑 | 周翔 【AI科技大本营导读】最近,A股尤其是上证指数走势凌厉,让营长有种身在牛市中的错...

68370
来自专栏语言、知识与人工智能

从用户行为去理解内容-item2vec及其应用

从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。

3.8K100
来自专栏机器之心

深度 | Ian Goodfellow AIWTB开发者大会演讲:对抗样本与差分隐私

机器之心整理 演讲者:Ian Goodfellow 参与:吴攀、李亚洲 面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST...

46580
来自专栏大数据文摘

什么是机器学习做不到的呢?

13440
来自专栏新智元

CVPR 2018:用GAN预测20年后你长什么样

27530
来自专栏量子位

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。 这部剧集厉不厉害...

34730

扫码关注云+社区

领取腾讯云代金券