专栏首页凹凸玩数据没有食材,数据分析师如何做饭?

没有食材,数据分析师如何做饭?

大家好,我是朱小五

做饭,不论色香味,最基本得有合适的“食材”,而对于数据分析师,两大支撑之一的“数据”,就如同做饭的食材。丰富食材可以为美味佳肴打下良好的基础,而多维度、立体化分析就需要多样的数据来源。

那有哪些获取数据的渠道呢?

下面看看唐府少帅的整理:

一、埋点/日志

商业公司,是数据分析师最大的聚集地之一,而数据分析师在其中扮演的主要角色整合商业数据,从中获得能够推动企业发展前进的方法,尤其是在互联网公司,更是存储了大量用户行为数据。

其中数据埋点则是最常用的网站分析的数据采集方法,主要是在公司官网、公开发布APP等的一些关键位置设置如点击、曝光、页面停留等事件,用以记录用户的行为操作,形成日志,记录在企业数据库中(如Orcal、SQL Server、MySQL等)。

对合理设置的埋点数据进行分析,促使我们理清用户的行为操作轨迹,明确用户的行为特征,可以帮助我们在设计用户画像时维度更加立体化;也能帮助我们构建准确的客户转化模型,从开始引流至最终成单,构建完整销售闭环。

而这些数据一般不对外开放,如非该公司员工,一般无法获得查阅使用这些数据库的权限。对于目标从事互联网行业数据分析师的朋友,可以多了解关于埋点相关的知识,有助于快速搭建出准确适用的客户模型。

二、政府网站

1、中国国家统计局

http://www.stats.gov.cn/

作为国家统计局官方网站,不仅有国家统计局的新闻公告,也包括了大量国家层面的数据,如土地数据、人口普查数据、行政区数据、国民经济数据等等政府官方数据,如果在做数据分析时需要类似数据,国家统计局的数据准确度最高,信息也更全面。

2、国家数据网

http://data.stats.gov.cn/

国家数据网,是国家统计局网站的一个二级网站,这里对数据的聚集度更高,包括了国家层面方方面面的数据,如资产类数据、农业类数据、房地产类数据、社会消费类数据等等,不仅如此,还制作了很多漂亮的可视化图表,也不失为一个学习数据可视化的好网站。

这里数据的丰富程度只有一个词可以形容,那就是:只有你想不到,没有国家做不到。

国家的政府网站会定期或不定期公开大量数据,如国家统计局、国家数据、NASA、中国产业信息等国家网站会公开大量数据。这些数据都是站在国家层面花费大量人力物力财力完成调查整理的,其数据量之庞大,维度之丰富,信息之准确,远超想象。

其中,国家统计局主要是发布一些人口普查、经济普查等与国民生活息息相关的数据,网站上也公开了大量数据解读,准确帮你理解数据维度。国家数据则包含了大量产业数据,如能源产业、房地产产业、商品零售等方面的数据。NASA(美国国家航空航天局),在其网站上公布了大量宇宙探测传回的图片及数据,是获取航天信息不可多得的地方之一。

三、咨询类公司数据报告

国内外大量数据咨询公司定期都会发布大量报告,在报告中便会直接体现出许多数据。而且数据已经完成整理,可以拿来直接引用。经常逛逛这些公司的官网,不仅可以丰富数据获取来源,更可以学习大公司整理数据分析报告的思路,对我们完成数据分析具有指导性意义。

下面向大家列出了一些著名的咨询公司,每个网站都有大量可免费下载的报告。

国外:

  • 麦肯锡咨询公司:https://www.mckinsey.com
  • 贝恩咨询公司:http://www.bain.cn/
  • 波士顿咨询公司:https://www.bcg.com
  • 埃森哲咨询公司:https://www.accenture.com

国内:

  • 万得资讯(wind):https://www.wind.com.cn/
  • 零点有数:http://www.horizon-china.com/
  • 艾瑞咨询:http://www.iresearch.cn/
  • 易观:https://www.analysys.cn/
  • 企鹅智酷:https://re.qq.com/

不论是国内外,都还有大量咨询公司,上面只是列举了一部分公司,大家也可以多搜搜咨询公司,不仅可以获得需要的数据,也可以多学习学习数据分析经验以及报告展现。

四、数据竞赛网站

国内外都有许多著名的数据竞赛网站,在这里聚集了大量数据分析师,甚至是数据科学家。这些网站不仅提供了大量数据,也由于专业性的比赛,也是学习数据分析的好地方,甚至赢得比赛,也能获得不菲的佣金。在这里向大家列举几个著名的数据竞赛网站。

1、Kaggle(https://www.kaggle.com)

kaggle主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,已经吸引了许多科学家和开发者的关注甚至入驻的平台。

2、阿里天池(https://tianchi.aliyun.com)

阿里天池是国内互联网三大巨头BAT之一的阿里组建的数据竞赛平台,这里也聚集了大量国内数据爱好者,尤其是高校老师和在校生参与众多。平台上也公开了大量数据,甚至是淘宝、天猫的用户行为数据,也是比赛的数据之一。

3、科赛(https://www.kesci.com)

科赛的名气虽稍逊于前两个平台,但是作为国内著名的开放数据科学社区之一,也聚集了大量数据科学方面的人才,在这里可以学习前辈们的经验、与大家相互交流,共同成长,同时,这里也发布了大量任务,通过完成任务也可以获得相应的佣金,促进能力金钱双丰收。

五、开放API接口

国内外,都有一些公司/机构/博客开放一些数据API给用户使用,只要会一些编程语言,按照索命文档进行操作,就可以直接使用这些数据,下面向大家展示一些开放的API。

1、百度数据开放平台(https://open.baidu.com)

2、聚合数据(https://www.juhe.cn/)

3、高德地图(https://lbs.amap.com/)

4、百度地图(http://lbsyun.baidu.com/)

高德地图、百度地图等一些公司,也开放了大量可直接调用的地图数据,尤其是在做数据展现的时候,可以直接使用,能够在第一时间带给人空间上的感受。

5、数据包

(TensorFlow中文社区)

在安装R语言、SPSS、SAS、Tableau、TensorFlow等一些数据处理软件或工具时,会有一些可以直接使用的数据,如常用的IRIS(鸢尾花数据集),Titanic(泰坦尼克生存数据集)WINE(葡萄酒数据集)等。

六、网络爬虫

如果上述办法还是没有帮到你找到合适的数据,那么最终通过网络爬虫也可以获得你最想要的数据。而常使用的网络爬虫工具有以下这么多,总有一款适合你:

1、Python(https://www.python.org/)

作为当前最接近人类的语言,Python有着众多优势,首当其冲是便是简洁。站在前辈的肩膀上,甚至只需要短短两行代码,就可以从网络上爬取到数据。

2、JAVA(https://www.java.com/zh_CN/)

当今最热的话题之一便是JAVA与Python的较量,有些朋友热衷Python,有些朋友热衷Java,但不论选择二者中的哪一个,都能从网络上爬取到需要的数据。

3、PHP(https://www.php.net/)

作为国内这两年最热的后端开发语言,其实PHP也能作为爬虫语言,这或许好多朋友没听说过吧。

4、Excel与Power BI

(Excel)

(Power BI)

作为微软家出的工具,如今都是大名鼎鼎。

Excel不必多说,是当今最常用的办公软件之一,想想多少人在简历上写了熟悉Excel,可是,实话说,使用的功能还打不到其功能的十分之一。更多人不知道这两款工具能够直接从网络上下载工具。

其实,从Excel 2016开始,包括Excel 2019,Excel 365就已经内置了Power Query模块,打开这个模块,只需要收入网址,就能智能匹配出想要下载的数据,是不是相当贴心?而Power BI则相当于Excel的升级版,其功能的强大,更是远超想象。自2017年起,Power BI就已经超过Tableau成为最强悍的智能数据分析工具。

5、八爪鱼(https://www.bazhuayu.com/)

八爪鱼作为一款集成程度最高的一款数据采集工具,深受大量不会编程的朋友喜爱。相比于Excel而言,八爪鱼更是可以采集网页各式各样的数据,使用起来也是相当顺手,如果不想学习编程的朋友想要采集一些非常规的数据,八爪鱼是个不错的选择呢。

以上就是为大家整理的所有最常用的数据获取渠道,欢迎大家分享。

如果你还有自己常用的数据获取渠道,也欢迎留言分享~~

本文分享自微信公众号 - 凹凸数据(alltodata),作者:唐府少帅

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 酷炫的 动态可视化 交互大屏,用Excel就能做!

    前段时间用tableau做了可视化大屏,大家有的说说没学过tableau,有的说不会做,但就是觉得很炫。

    朱小五
  • 你真的懂如何展示数据吗?

    不同的展示方法,其效果往往差异巨大。这里我将结合近期的一些阅读和实践,试图给出一些方法,希望能帮助到你。

    朱小五
  • 一位数据分析师的成长日记

    答:需求方想干的(预期)和自己提的需求可能不匹配,这时候分析师就得站出来帮他修正。比如需求方想看新老版本的效果是否显著,需求单里面只列出了老版本实验组,和新版本...

    朱小五
  • 拥有免费数据集的十大优秀网站

    如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

    代码医生工作室
  • 数据派研究部招新 | 打比赛、做项目、内容产出...等你来~

    我想,你来到了这里,就说明你对未来还抱有激情和希望。在2018年新年的时候,我曾收到这样一句祝福,现在也分享给大家——鲜衣怒马,不负韶华。

    数据派THU
  • 走出大数据的“大”的误区

    “大数据”已经成为21世纪商业的代名词。聚拢大量数据的浪潮正变得愈加猛烈。公司无论所属行业和规模大小,都竭力想要实现招聘自动化,将流程数字化,并且打造出客户和求...

    华章科技
  • 中关村发布:大数据企业分布图等3张图

    大数据文摘
  • 快看,大数据发展的五个新趋势!

    随着人工智能和物联网日益进步而逐步取得主导地位,更多的企业比以往更容易受到数据的驱动,大数据将深刻影响商业世界的每一个角落…… 机器学习技术正在迅速发展,数字业...

    企鹅号小编
  • 【干货收藏】不要担心没数据!史上最全数据集网站汇总

    本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

    机器学习算法工程师
  • 【资源】想进行数据科学项目却没有数据集?25个数据集网站汇总

    原作者 Kunal Jain 编译  Mika 本文为 CDA 数据分析师原创作品,转载需授权 前言 如果用一个句子总结学习数据科学的本质,那就是: 学习数据科...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券