来源:机器学习算法那些事本文约3000字,建议阅读6分钟本文整理一张50个醉驾机器学习公共数据集的榜单。
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~
提前说下须知:
一、寻找数据集的意义
根据CMU的说法,寻找一个好用的数据集需要注意一下几点:
数据集不混乱,否则要花费大量时间来清理数据。
数据集不应包含太多行或列,否则会难以使用。
数据越干净越好,清理大型数据集可能非常耗时。
应该预设一个有趣的问题,而这个问题又可以用数据来回答。
二、去哪里找数据集
好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。
三、机器学习数据集
UCI的Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。 https://archive.ics.uci.edu/ml/datasets/Spambase
四、一般数据集
除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~
备注:有一些网址需要科学上网才能打开。
暂时手头没有工具怎么办?先收藏呀!
编辑:于腾凯