前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >没有食材,数据分析师如何做饭?

没有食材,数据分析师如何做饭?

作者头像
朱小五
发布2020-04-16 17:30:35
6740
发布2020-04-16 17:30:35
举报
文章被收录于专栏:凹凸玩数据凹凸玩数据

大家好,我是朱小五

做饭,不论色香味,最基本得有合适的“食材”,而对于数据分析师,两大支撑之一的“数据”,就如同做饭的食材。丰富食材可以为美味佳肴打下良好的基础,而多维度、立体化分析就需要多样的数据来源。

那有哪些获取数据的渠道呢?

下面看看唐府少帅的整理:

一、埋点/日志

商业公司,是数据分析师最大的聚集地之一,而数据分析师在其中扮演的主要角色整合商业数据,从中获得能够推动企业发展前进的方法,尤其是在互联网公司,更是存储了大量用户行为数据。

其中数据埋点则是最常用的网站分析的数据采集方法,主要是在公司官网、公开发布APP等的一些关键位置设置如点击、曝光、页面停留等事件,用以记录用户的行为操作,形成日志,记录在企业数据库中(如Orcal、SQL Server、MySQL等)。

对合理设置的埋点数据进行分析,促使我们理清用户的行为操作轨迹,明确用户的行为特征,可以帮助我们在设计用户画像时维度更加立体化;也能帮助我们构建准确的客户转化模型,从开始引流至最终成单,构建完整销售闭环。

而这些数据一般不对外开放,如非该公司员工,一般无法获得查阅使用这些数据库的权限。对于目标从事互联网行业数据分析师的朋友,可以多了解关于埋点相关的知识,有助于快速搭建出准确适用的客户模型。

二、政府网站

1、中国国家统计局

http://www.stats.gov.cn/

作为国家统计局官方网站,不仅有国家统计局的新闻公告,也包括了大量国家层面的数据,如土地数据、人口普查数据、行政区数据、国民经济数据等等政府官方数据,如果在做数据分析时需要类似数据,国家统计局的数据准确度最高,信息也更全面。

2、国家数据网

http://data.stats.gov.cn/

国家数据网,是国家统计局网站的一个二级网站,这里对数据的聚集度更高,包括了国家层面方方面面的数据,如资产类数据、农业类数据、房地产类数据、社会消费类数据等等,不仅如此,还制作了很多漂亮的可视化图表,也不失为一个学习数据可视化的好网站。

这里数据的丰富程度只有一个词可以形容,那就是:只有你想不到,没有国家做不到。

国家的政府网站会定期或不定期公开大量数据,如国家统计局、国家数据、NASA、中国产业信息等国家网站会公开大量数据。这些数据都是站在国家层面花费大量人力物力财力完成调查整理的,其数据量之庞大,维度之丰富,信息之准确,远超想象。

其中,国家统计局主要是发布一些人口普查、经济普查等与国民生活息息相关的数据,网站上也公开了大量数据解读,准确帮你理解数据维度。国家数据则包含了大量产业数据,如能源产业、房地产产业、商品零售等方面的数据。NASA(美国国家航空航天局),在其网站上公布了大量宇宙探测传回的图片及数据,是获取航天信息不可多得的地方之一。

三、咨询类公司数据报告

国内外大量数据咨询公司定期都会发布大量报告,在报告中便会直接体现出许多数据。而且数据已经完成整理,可以拿来直接引用。经常逛逛这些公司的官网,不仅可以丰富数据获取来源,更可以学习大公司整理数据分析报告的思路,对我们完成数据分析具有指导性意义。

下面向大家列出了一些著名的咨询公司,每个网站都有大量可免费下载的报告。

国外:

  • 麦肯锡咨询公司:https://www.mckinsey.com
  • 贝恩咨询公司:http://www.bain.cn/
  • 波士顿咨询公司:https://www.bcg.com
  • 埃森哲咨询公司:https://www.accenture.com

国内:

  • 万得资讯(wind):https://www.wind.com.cn/
  • 零点有数:http://www.horizon-china.com/
  • 艾瑞咨询:http://www.iresearch.cn/
  • 易观:https://www.analysys.cn/
  • 企鹅智酷:https://re.qq.com/

不论是国内外,都还有大量咨询公司,上面只是列举了一部分公司,大家也可以多搜搜咨询公司,不仅可以获得需要的数据,也可以多学习学习数据分析经验以及报告展现。

四、数据竞赛网站

国内外都有许多著名的数据竞赛网站,在这里聚集了大量数据分析师,甚至是数据科学家。这些网站不仅提供了大量数据,也由于专业性的比赛,也是学习数据分析的好地方,甚至赢得比赛,也能获得不菲的佣金。在这里向大家列举几个著名的数据竞赛网站。

1、Kaggle(https://www.kaggle.com)

kaggle主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,已经吸引了许多科学家和开发者的关注甚至入驻的平台。

2、阿里天池(https://tianchi.aliyun.com)

阿里天池是国内互联网三大巨头BAT之一的阿里组建的数据竞赛平台,这里也聚集了大量国内数据爱好者,尤其是高校老师和在校生参与众多。平台上也公开了大量数据,甚至是淘宝、天猫的用户行为数据,也是比赛的数据之一。

3、科赛(https://www.kesci.com)

科赛的名气虽稍逊于前两个平台,但是作为国内著名的开放数据科学社区之一,也聚集了大量数据科学方面的人才,在这里可以学习前辈们的经验、与大家相互交流,共同成长,同时,这里也发布了大量任务,通过完成任务也可以获得相应的佣金,促进能力金钱双丰收。

五、开放API接口

国内外,都有一些公司/机构/博客开放一些数据API给用户使用,只要会一些编程语言,按照索命文档进行操作,就可以直接使用这些数据,下面向大家展示一些开放的API。

1、百度数据开放平台(https://open.baidu.com)

2、聚合数据(https://www.juhe.cn/)

3、高德地图(https://lbs.amap.com/)

4、百度地图(http://lbsyun.baidu.com/)

高德地图、百度地图等一些公司,也开放了大量可直接调用的地图数据,尤其是在做数据展现的时候,可以直接使用,能够在第一时间带给人空间上的感受。

5、数据包

(TensorFlow中文社区)

在安装R语言、SPSS、SAS、Tableau、TensorFlow等一些数据处理软件或工具时,会有一些可以直接使用的数据,如常用的IRIS(鸢尾花数据集),Titanic(泰坦尼克生存数据集)WINE(葡萄酒数据集)等。

六、网络爬虫

如果上述办法还是没有帮到你找到合适的数据,那么最终通过网络爬虫也可以获得你最想要的数据。而常使用的网络爬虫工具有以下这么多,总有一款适合你:

1、Python(https://www.python.org/)

作为当前最接近人类的语言,Python有着众多优势,首当其冲是便是简洁。站在前辈的肩膀上,甚至只需要短短两行代码,就可以从网络上爬取到数据。

2、JAVA(https://www.java.com/zh_CN/)

当今最热的话题之一便是JAVA与Python的较量,有些朋友热衷Python,有些朋友热衷Java,但不论选择二者中的哪一个,都能从网络上爬取到需要的数据。

3、PHP(https://www.php.net/)

作为国内这两年最热的后端开发语言,其实PHP也能作为爬虫语言,这或许好多朋友没听说过吧。

4、Excel与Power BI

(Excel)

(Power BI)

作为微软家出的工具,如今都是大名鼎鼎。

Excel不必多说,是当今最常用的办公软件之一,想想多少人在简历上写了熟悉Excel,可是,实话说,使用的功能还打不到其功能的十分之一。更多人不知道这两款工具能够直接从网络上下载工具。

其实,从Excel 2016开始,包括Excel 2019,Excel 365就已经内置了Power Query模块,打开这个模块,只需要收入网址,就能智能匹配出想要下载的数据,是不是相当贴心?而Power BI则相当于Excel的升级版,其功能的强大,更是远超想象。自2017年起,Power BI就已经超过Tableau成为最强悍的智能数据分析工具。

5、八爪鱼(https://www.bazhuayu.com/)

八爪鱼作为一款集成程度最高的一款数据采集工具,深受大量不会编程的朋友喜爱。相比于Excel而言,八爪鱼更是可以采集网页各式各样的数据,使用起来也是相当顺手,如果不想学习编程的朋友想要采集一些非常规的数据,八爪鱼是个不错的选择呢。

以上就是为大家整理的所有最常用的数据获取渠道,欢迎大家分享。

如果你还有自己常用的数据获取渠道,也欢迎留言分享~~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 凹凸数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、埋点/日志
  • 二、政府网站
  • 三、咨询类公司数据报告
  • 四、数据竞赛网站
  • 五、开放API接口
  • 六、网络爬虫
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档