学习攻略 | 数据分析师学习路线图

数据分析师Data analyst:指熟悉相关业务,熟练搭建数据分析框架,掌握和使用相关的分析常用工具和基本的分析方法,进行数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导意义的分析意见。

数据分析师职位要求

1. 计算机、统计学、数学等相关专业本科及以上学历; 2. 具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL; 3. 三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作; 4. 对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳; 5. 具备良好的逻辑分析能力、组织沟通能力和团队精神; 6. 富有创新精神,充满激情,乐于接受挑战

岗位划分

1. 第一阶段(一般叫数据分析专员)

基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了

2. 第二阶段(数据专员~数据分析师)

这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。

3. 第三阶段(数据分析师)

统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。

4. 第四阶段(分裂)

可视化工程师:这部分国内比较少,其实偏重前端,会high charts,d3.js, echarts.js。技术发展路线可以独立,不在这四阶段,可能前端转行更好。

数据挖掘工程师(一部分和数据挖掘工程师重合):机器学习精通级别(往往是几种,不用担心不是全部,和数据分析师侧重点不同,更需要了解组合模型,理论基础),会组合模型形成数据产品;计算机基本知识(包括linux知识、软件工程等);各类数据库(RDBMS、NoSQL(4大类))

数据科学家:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。

学习路线图

往数据发展的基本学习路径可以概括为以下内容:

1. EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。

2. 数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。

3. 统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。

其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。

4. 机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

5. 大数据开发(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。

6. 文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。

7. 工具类

语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。

可视化(选学):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错

数据库语言:看你自己用啥学啥

其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)

8.相关资料

《数据分析入门》、《从文科生到数据分析师(全)》、《如何系统开始学习数据分析》、《数据分析师成长之路》、《上百篇电子书下载》

9.推荐课程

基础课程-统计学 【概率与数理统计】http://www.ppvke.com/10398.html

入门课程-工具 【Excel】http://www.ppvke.com/class/select?topicid=Excel 【SQL】http://www.ppvke.com/class/select?topicid=Sql

中级课程-工具 【R语言实战】https://ke.qq.com/course/113359 【Python编程基础】https://ke.qq.com/course/165980

高级课程-算法 【python数据挖掘】https://ke.qq.com/course/145556 【R语言数据挖掘】https://ke.qq.com/course/113359

系统学习建议参培训 【数据分析师】 http://www.ppvke.com/Answer/page/cda

R语言学习路线图

俗话说读万卷书,行万里路.不如阅人无数,阅人无数不如名师指路.可见一个好的导师是多么的重要,选择正确的路线,就能避免走许多弯路,

让自己站在巨人的肩膀上去学习,事半功倍.这里边罗列了最佳学习路线,供大家参考.

基本上就是这些:

  • 看在线互动教程、打代码,了解R的最基本的东西,大概能做哪些事情(比如计算一些线性回归),自己根据这些教程去做各种变化,做许多实验,探索一下这个语言的基本语法和构造。
  • 看一些入门书籍,比如 Introductory Time Series with R等等,给你展示怎样用R来比较完整地解决一个问题。可以根据你的领域选择类似的书籍。
  • 开始用R解决一些统计、计量相关的计算性问题,比如用自己的数据跑一些模型,探索这些数据里面可能有趣的东西。
  • 在数据较为复杂一些的项目中使用R,发现数据操作能力太弱,开始接触更深层的R概念,比如可以看 Data Manipulation With R (Phil Spector),形成更加系统的概念,逐渐掌握操作复杂一些的数据和对象的能力。
  • 学习最流行的R扩展包的使用方法,发现整理数据和建模中的许多工作都大幅简化,工作效率出现质的提升。
  • 逐渐开始做更为复杂的项目,形成一整套数据处理、建模的技术和技巧,形成较为系统、完整的认识和知识结构,有较强的社区检索能力,遇到问题能够自行解决或者通过社区解决。
  • 阅读进阶的书籍,例如 Hadley 的 Advanced R Programming,对R的底层和开发有了更加深刻和全面的认识,形成了使用R的基本直觉。
  • 参与到开源社区,不断跟进最新的发展和技术。
  • 参与到R会议,结交更多的朋友,交流使用经验,进一步提升视野和能力。

注:因微信文本限制无法加入超链,请点击”阅读原文“查看。

END.

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-06-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

AI 公司应聘全面指南 | 从构建关系网到面试最后一问

过去 8 个月里,我参加了谷歌 DeepMind、Wadhwani 人工智能研究所、微软、Ola、Fractal Analytics 等多家公司的面试,应聘数据...

892
来自专栏机器之心

从构建关系网到面试最后一问,这是一份AI公司应聘全面指南

1827
来自专栏Fundebug

昝涛博士:人工智能如何自动编程

知名风险投资人Marc Andreessen说过:”Software is eating the world.“,事实上现在确实如此。如今我们每个人的手机上少则...

1484
来自专栏华章科技

送书 | 别泡枸杞,别晒步数!7招搞懂健康数据,有型有颜等TA来撩

导读:你的日常活动正在产生大量数据!但其中很多数据也正在被你浪费。你以为数据与健康的关系,就是在朋友圈里晒晒步数?其实,并不需要复杂的技术,这些数据就可以帮你完...

532
来自专栏CDA数据分析师

3分钟轻松了解个性化推荐算法

摘要:如果去商场里买东西,我并不愿意听导购小姐讲的话,但是电商网站上的推荐,我还真的愿意看一看。【猜你喜欢】,好,那你就猜猜吧。 推荐这种体验除了电商网站,还有...

2515
来自专栏新智元

深度学习驱动智能搜索引擎,RankBrain革了SEO的命

【新智元导读】想在谷歌或百度等搜索结果中排名靠前,除了广告(给钱),你还可以选择SEO(搜索引擎优化):让网站符合算法的规则,提升在搜索引擎内的自然排名。但去年...

3869
来自专栏新智元

Michael I. Jordan联合UC伯克利13位重量级学者:下一代人工智能系统的4大趋势和9大研究课题

【新智元导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenge...

40310
来自专栏媒矿工厂

MMSys2018:VR360发展现状【附PPT全文】

2018年6月12号至6月15号,第9届ACM多媒体系统会议(MMSys,ACM Multimedia Systems Conference)在荷兰阿姆斯特丹召...

2466
来自专栏PPV课数据科学社区

【学习】大数据技术学习路线指南:[2]实践原型

大数据的目的在于挖掘价值,而它的本质与OODA循环决策模型非常相似。用OODA这个原型来理解大数据是最合适的了!在战场上,OODA循环决策的周期越短,胜算越大;...

3716
来自专栏大数据文摘

别错过这张AI商用清单:你的生产难题可能被一个应用解决

1623

扫码关注云+社区

领取腾讯云代金券