专栏首页ATYUN订阅号使用Google的Quickdraw创建MNIST样式数据集!

使用Google的Quickdraw创建MNIST样式数据集!

对于那些运行深度学习模型的人来说,MNIST是无处不在的。手写数字的数据集有许多用途,从基准测试的算法(在数千篇论文中引用)到可视化,比拿破仑的1812年进军更为普遍。数字如下所示:

它经久不衰的主要原因是缺乏替代品。在这篇文章中,我想介绍另一种方法,就是Google的QuickDraw数据集。2017年QuickDraw数据集应用于Google的绘图游戏Quick,Draw。该数据集由5000万幅图形组成。图纸如下所示:

构建您自己的QuickDraw数据集

我想了解您如何使用这些图纸并创建自己的MNIST数据集。Google使每个图纸变为可用的28x28灰度位图文件,这些可以作为MNIST 28x28灰度位图图像的替代品。并且Google已经将数据集公开。所有数据都位于Google的云端控制台中,但是对于这些图像,您需要使用numpy_bitmaps的这个链接。

您应该到达一个允许您下载任何类别图像的页面。然后选择类别,我选择眼镜,脸,铅笔和电视机。通过脸这个类别可以知道精细的绘画可能更难学习,您应该选择其他有趣的类别。

接下来的挑战是获得这些.npy文件并使用它们。这是一个简短的python gist ,我用来阅读.npy文件并将它们组合起来创建一个可以用来替代MNIST的含有80,000个图像的数据集。它们以hdf5格式保存,这种格式是跨平台的,经常用于深度学习。

用QuickDraw代替MNIST

我使用这个数据集代替MNIST。在Keras 教程中,使用Python中的自动编码器进行一些工作。下图显示了顶部的原始图像,并使用自动编码器在底部显示重建的图像。

接下来我使用了一个R语言的变分自编码器的数据集。以下是导入数据的代码片段:

library(rhdf5)
x_test <- t(h5read('x_test.h5', 'name-of-dataset'))
x_train <- t(h5read('x_train.h5', 'name-of-dataset'))
y_test <- (h5read('y_test.h5', 'name-of-dataset'))
y_train <- (h5read('y_train.h5', 'name-of-dataset'))

这是使用自定义的quickdraw数据集的可视化的潜在空间。

本文为编译文章,作者Rajiv Shah,原网址为 http://projects.rajivshah.com/blog/2017/07/14/QuickDraw/

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:项, 晓珊

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 研究人员利用机器学习算法检测医疗保险欺诈

    佛罗里达大西洋大学工程与计算机科学学院的研究人员发表了一项健康信息科学与系统的研究,该研究展示了机器学习和高级分析如何检测医疗保险欺诈检测。这一突破可能避免每年...

    AiTechYun
  • 数据清理的简要介绍

    清理数据应该是数据科学(DS)或者机器学习(ML)工作流程的第一步。如果数据没有清理干净,你将很难在探索中的看到实际重要的部分。一旦你去训练你的ML模型,他们也...

    AiTechYun
  • 数据科学中的强大思维

    人类擅长在所有的事物中寻找对应的模式。真模式,假模式,命名的模式。我们是那种能在薯片上找到猫王的脸的生物。如果你倾向于将模式与洞察力等同起来,请记住有三种数据模...

    AiTechYun
  • 大数据周周看 | TalkingData涉足互联网金融,“酷米客”数据被盗,价值将超20亿

    <数据猿导读> 艾美仕健康与Cloudera 达成合作,将用于打造医疗大数据平台;人民日报与四川日报合作,开启西部媒体大数据新篇章;eBay收购SalesPre...

    数据猿
  • 建设城市大数据平台面临的挑战及建议

    日前,中国信息通信研究院正式发布《城市大数据平台白皮书》,阐述了城市大数据的概念和内涵,分析了建设城市大数据平台对于破解智慧城市建设难题的意义,并介绍了我国城市...

    数据猿
  • 多数公司容易犯的5个大数据错误

     1.使用大数据确认,而不是发现   大数据在用于提供以前被忽视的见解和发现时,对于人们来说是最好的。企业不仅可以更多地了解目标受众,并预测市场趋势,还可以对...

    BestSDK
  • 大数据让未来生活充满无限可能,未来可能不用苦苦学外语了

    初中开始接触摄影,从胶片相机玩到数码单反,今年28岁的的陈伟一直是身边朋友公认的摄影大师,“对于摄影最前沿的东西没有不知道的。”但在近日举行的生态文明贵阳国际论...

    小莹莹
  • 教育部最新:283所高校获批数据科学与大数据专业(附完整名单+公益计划)

    大数据文摘
  • 帮助你开始学习天文学的4个 Python 工具【Programming(Python)】

    用 NumPy、 SciPy、 Scikit-Image 和 Astropy 探索宇宙

    Potato
  • 大数据24小时 | 美联社用大数据追踪总统大选,海上丝绸之路大数据中心落户福建

    美联社推出 Election Buzz,靠大数据追踪美国总统大选 ? 据外媒报道,美联社近日与谷歌及Twitter合作,整合这两大平台的数据推出了一款称为“AP...

    数据猿

扫码关注云+社区

领取腾讯云代金券