“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
作者 | mlmemoirs
编译 | 郭一璞
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~
提前说下须知:
一、寻找数据集的意义
根据CMU的说法,寻找一个好用的数据集需要注意一下几点:
数据集不混乱,否则要花费大量时间来清理数据。
数据集不应包含太多行或列,否则会难以使用。
数据越干净越好,清理大型数据集可能非常耗时。
应该预设一个有趣的问题,而这个问题又可以用数据来回答。
二、去哪里找数据集
好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。
01
机器学习数据集
图片
情绪分析
自然语言处理
UCI的Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。 https://archive.ics.uci.edu/ml/datasets/Spambase
自动驾驶
临床
02
一般数据集
除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~
公共政府数据集
备注:有一些网址需要科学上网才能打开。
暂时手头没有工具怎么办?先收藏呀!