前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >有了这个,做机器学习项目再也不用担心数据集了

有了这个,做机器学习项目再也不用担心数据集了

作者头像
CDA数据分析师
发布2019-11-12 16:06:25
3100
发布2019-11-12 16:06:25
举报
大数据文摘出品

作者:曹培信

有一个机器学习项目的想法,兴致冲冲地准备开始,才发现没有合适的数据集来训练模型。

你有没有过这样的经历?

其实随着机器学习的流行和发展,每年很多高校、企业都在做一些项目并公开他们的数据集,但是尽管每年发布的大量高质量数据集越来越多,而且其中大部分都发布在各自的网站上,因此我们很难找到它们。

但是现在就要带给小伙伴们一个神奇的网站——“网络上最大的机器学习数据集列表”。这个网站将各种开源的数据集整合起来,并提供下载和相关论文的链接,简直是广大MLer的福音!

网站链接:

https://www.datasetlist.com/

正如上图所示,左边可以按照分类寻找数据集,有计算机视觉(CV)、自然语言处理(NLP)、自动驾驶(Self-driving)等等,右边是数据集的信息,包括名称、年份、简介和许可情况(公开的、非商业的等等),还有相关的论文链接。

当然,如果有好的数据集愿意分享,网站也提供自己上传数据集的功能。

如果想了解新的数据集更新情况,也可以提供邮箱订阅消息。

这个网站的作者是一位名叫Nikola Pleša的工程师,他在一家名为Mapillary的公司工作,他自己有一个个人网站,打开后你会发现,这也是一个很有意思的宝藏男孩!

Nikola的个人网站:

http://www.nikolaplesa.com/

除了这个数据集,他还做了很多有意思的小项目,比如chrome浏览器上的Mapillary扩展程序,安装之后每次打开新标签页时都会显示来自Mapillary的随机精美图片。

感兴趣的小伙伴可以自己探索一下~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档