还在为找数据而发愁吗?看完这篇你应该再也不会了

关键时刻,第一时间送达!

【作者】:xiaoyu

【介绍】:一个半路转行的数据挖掘工程师

【知乎专栏】:https://zhuanlan.zhihu.com/pypcfx

本文阅读仅需5分钟

学数据分析当然要先有数据,数据是分析的根本,不然一切都是空谈。如果是在公司里,得到数据轻而易举,因为公司有客户,有业务,必然会产生大量数据。但仅仅是个人学习的话,我们如何得到数据呢?

其实这也是好多正在学习数据分析的朋友常会遇到一个问题。一些朋友可能说爬虫可以解决。没错,确实可以通过爬虫来获取一部分信息,但也有局限性,并且每次都爬不但麻烦,也会遇到很多问题,毕竟我们的重点是分析而不是爬虫。

下面博主将珍藏的一些网上公开数据源做一个汇总,帮助有需要数据的朋友们。

1机器学习/数据挖掘

1. 1 Kaggle

  • https://www.kaggle.com/

Kaggle是无数数据挖掘爱好者喜爱的竞赛平台,它的大标语是:your home for data science。许多大公司与Kaggle合作,提供公开的数据源,并设立奖金,希望数据挖掘爱好者们通过竞赛的方式提供最优方案,解决实际问题。所提供的奖金丰厚,给予比赛最好成绩的前三名选手。

当然,大部分人参加竞赛并不是为了奖金而去,真实的目的是通过实战来提高自己的数据挖掘能力,在与世界各国的爱好者进行切磋的同时,开阔自己的眼界和视野,学习新知识。并且,这些大公司提供的数据源是非常有参考价值的,可以作为实战项目的首选,对求职者也是个很大的帮助。

1.2 天池

  • https://tianchi.aliyun.com/

国内比较有名的数据挖掘平台了,它是一个数据科学家的社区,由阿里巴巴组织。赛事众多,有奖金支持,并云集了各路国内爱好者和高校研究者的参加。比赛设有初赛,复赛,决赛等关卡,有评委进行把关。平台同样也拥有大量免费的数据集供爱好者们使用。

1.3 数据城堡(DataCastle)

  • http://www.pkbigdata.com/

同样也是数据科学的竞赛平台,报名后获取任务数据集,也是一个非常好的学习网站。

1.4 SofaSofa

  • http://sofasofa.io/index.php

虽然竞赛人数和项目都一般,但是作为数据科学社区,提供免费的数据集。并可以在社区内进行技术交流和探讨。

2各行业的数据网站

2.1 世界宏观经济数据

  • https://knoema.com/
  • https://data.worldbank.org.cn/

关于世界宏观经济的两个网站,涵盖大量相关数据和学习资源。

2.2 国家统计局

  • https://www.stats.gov.cn/

数据来源于中国国家统计局,主要涉及我国经济民生等多个方面的数据,并在月度、季度、年度等多维度覆盖,较为全面和权威,对于社会科学的研究非常有帮助。

2.3 CEIC

  • http://www.ceicdata.com/zh-hans

拥有超过128个国家的经济数据,可以非常精确地查找到各国GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等数据。其中,“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

2.4 万得(Wind)

  • http://www.wind.com.cn/

万得有“中国Bloomberg”的称号,覆盖了全面的金融业数据,且类目更新非常快,受到很多商业分析者和投资人的亲睐。

2.5 搜数网

  • http://www.soshoo.com/

拥有海量的统计资料,数量高达7,874本,同时涵盖了1,761,009张统计表格和364,580,480个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据。

2.6 中国统计信息网

  • http://www.tjcn.org/

国家统计局官网,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等为辅助的多元化统计信息资料库,目前在线资料已达上万份。

2.7 figshare

  • https://figshare.com/

一个研究成果共享的平台,来自世界的研究成果分享,同时有共享的研究数据。

2.8 OpenStreetMap

  • https://www.openstreetmap.org/

通过这个网站可以下载世界各地的地图数据。

2.9 极海(geohey)

  • https://geohey.com/

同样也是可以提供地图信息数据的网站;

2.10 github

  • https://github.com/caesar0301/awesome-public-datasets

如果还嫌数据源不够,github上有位大神已经为大家整理好了一个非常全面的数据网站汇总,包含各个细分领域的数据资源(非常全),下面只是部分截图。

3总结

其实数据是无处不在的,需要我们平时善于发现和观察。以上是本次向大家分享的免费数据网站,希望对大家能有所帮助。

原文发布于微信公众号 - Python数据科学(Python_Spiderman)

原文发表时间:2018-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

最新神经网络技术或能控制人类精神世界

【新智元导读】是否有可能实现对人类的大脑进行控制?宾夕法尼亚大学研究人员认为,网络控制本质上类同于精神控制。研究者使用经颅磁刺激(TMS),该技术将外部磁场作用...

28840
来自专栏华章科技

科学家爆炸性结论:人死后会穿越进另一个宇宙

被纽约时报评选为们时代里三位最重要的科学家之一的RobertLanza博士,写了一本《生物中心论》,里面有个爆炸性的结论:人死后生命不会结束,而且,会穿越进不同...

11830
来自专栏机器人网

机器人行业的六大颠覆技术盘点

据英国媒体报道,该国布里斯托尔一家刚刚建成的医院,最近引入一批名为“自动导航运载仪”(AGV)的机器人,主要负责把厨房为病人准备的食物,由厨房运至病人手上。这些...

35460
来自专栏CSDN技术头条

5家初创公司打造人工智能芯片

当我们开始这个小众市场的时候,我们的第一个问的问题是:什么是人工智能芯片?最好的办法是先思考人工智能软件需要什么:很好的处理速度,以及高处理速度所需的大功率。然...

22550
来自专栏华章科技

用数据分析告诉你数据分析师能挣多少钱

随着大数据时代的到来和数据的市场价值得到认可,数据分析师、进阶一点的还有数据挖掘工程师、甚至是金字塔顶尖的数据科学家,这些作为21世纪最性感的职业已成功吸引无数...

6110
来自专栏大数据文摘

重磅:如何不花钱就成为数据科学家?

31660
来自专栏黄成甲

怎样成为解决问题的高手(连载二)

在连载一里,我们分享了解决问题的四个步骤,这四个步骤非常的重要,我要在这里重复一下。

18830
来自专栏VRPinea

AR书籍盘点|今天你读书了吗?

34390
来自专栏ThoughtWorks

软件巨匠Martin Fowler来华,面对面与您畅聊技术!

时隔一年,Martin Fowler再次来到中国,此次来华Martin将驻足北京、成都两站,为那里的程序员带去他的最新技术研究趋势! Martin Fowler...

32160
来自专栏大数据文摘

快讯 | 小扎首发长文回应FB数据丑闻,谷歌云强调用户隐私保护

16730

扫码关注云+社区

领取腾讯云代金券