上篇文章,笔者按照自己的理解,把数据分析师分为了 初级、中级、高级 三个阶段,并大致归纳了一下三个阶段的数据分析师的价值
今天,咱们一起来梳理下,关于这三个阶段的数据分析师,通用性的技能点
说到工具类,大家肯定会想到EXCEL,想到SQL,想到Python,想到R
但就这些工具都有个本质性需求
整合处理数据,并将数据较美观的透出
所以回归到本质,excel也好,sql也好,python也好,其实都是数据处理的工具
我们分别来说下工具类的基础技能点
EXCEL:常用函数vlookup,match,index等,数据透视表功能,图表功能
SQL:聚合函数,窗口函数,表格关联,数据倾斜优化等
Python:循环、字典、字符串、pandas、numpy等常用包的使用
这里我们列举一些SQL中常被忽略的问题,大家可以找一下答案:
1、SQL中的 row_number、rank、dense_rank三个函数排序的区别是什么?
2、where 条件 和 on 条件,哪个的执行优先级更高?
3、SQL中的行转列 & 列转行如何实现?
网络上关于EXCEL、SQL、Python的学习资源非常多,笔者在这里就不赘述了
关于理论类知识点,每个数据分析师应该都有不同的见解
财务类的分析师,需要一些财务相关的基础知识
金融类的分析师,需要的则是经济学相关的基础知识
而偏算法类的分析师,需要的是算法知识的积累
而业务类的分析师,需要的是一些产运及行业的玩儿法沉淀
当然,这些都是初级数据分析师后的方向
我们来说说最基础的技能点:统计学&概率论
1、统计推断:置信区间、置信度、假设检验(t检验、z检验、卡方检验),以及这些检验适用的数据类型及样本情况;
2、中心极限定律、大数定律、辛普森悖论等
3、概率与概率的分布、统计量及抽样分布、参数估计等
4、回归分析、方差分析、分类分析、时间序列等
再往上,我们可以去深入的思考一下 全概率公式、贝叶斯公式、马尔科夫链等在业务中的实际运用
比如在小流量实验,建设汰换流量池时,我们可以使用贝叶斯公式,不断调整和选择更好的内容方案上线
比如在分析APP链路时,我们可以利用马尔科夫链的常返态及稳态性质,计算出一个APP功能的最高渗透率,并找到这个最高渗透率的路径,做相应的产品引导
... ...
这里推荐几本书
入门级的:《统计学》、《概率论与数理统计》
深入一些的:《概率导论》
再往上一些的,就是更专业的一些书籍了,笔者知识有限,就由大家自己去发现了
关于业务的重要性,基本每篇文章都有说到,这里就不再阐述
同样,这个也是最能“分割”数据分析师层级的一个技能点
笔者按照自己的理解,大致将数据分析师的职业发展划分为以下三个节点
帮助业务发展 + 指导业务发展 + 判断业务方向
帮助业务发展:我们在了解业务的初期,我们并不能很好的判断业务当前的状态,但是,业务同学,或者更资深的同学,通过他们的需求,或者业务判断,我们可以为他们提供一些数据支持,描述性统计分析报告等
即:从数据的视角,度量业务当前的状态,从而可以帮助那些更了解业务的同学去指导业务发展
指导业务发展:在对业务有较深刻的了解后,我们不仅仅需要做出对当前业务情况的判断,我们还需要逐渐具备 找到当前业务问题,并提出解决问题方案 的能力
即:从数据的视角,业务当前的状态是什么,哪些有问题,如何解决;哪些可以优化,方案是什么;如何去实施这些方案,action是什么;做了这些action后,预期会有什么效果,如何评估结果;如果有负面效果,如何cover负面效果
这个阶段是一个非常漫长的积累的过程,需要积累项目经验,沉淀分析方法论,深耕某一行业,熟悉行业玩儿法等等
这也是一个由量变逐渐变为质变的过程