作者:曹培信
有一个机器学习项目的想法,兴致冲冲地准备开始,才发现没有合适的数据集来训练模型。
你有没有过这样的经历?
其实随着机器学习的流行和发展,每年很多高校、企业都在做一些项目并公开他们的数据集,但是尽管每年发布的大量高质量数据集越来越多,而且其中大部分都发布在各自的网站上,因此我们很难找到它们。
但是现在文摘菌就要带给小伙伴们一个神奇的网站——“网络上最大的机器学习数据集列表”。这个网站将各种开源的数据集整合起来,并提供下载和相关论文的链接,简直是广大MLer的福音!
网站链接:
https://www.datasetlist.com/
正如上图所示,左边可以按照分类寻找数据集,有计算机视觉(CV)、自然语言处理(NLP)、自动驾驶(Self-driving)等等,右边是数据集的信息,包括名称、年份、简介和许可情况(公开的、非商业的等等),还有相关的论文链接。
当然,如果有好的数据集愿意分享,网站也提供自己上传数据集的功能。
如果想了解新的数据集更新情况,也可以提供邮箱订阅消息。
这个网站的作者是一位名叫Nikola Pleša的工程师,他在一家名为Mapillary的公司工作,他自己有一个个人网站,打开后你会发现,这也是一个很有意思的宝藏男孩!
Nikola的个人网站:
http://www.nikolaplesa.com/
除了这个数据集,他还做了很多有意思的小项目,比如chrome浏览器上的Mapillary扩展程序,安装之后每次打开新标签页时都会显示来自Mapillary的随机精美图片。