原创内容
No.783
求职指南 | 数分基本功:统计学导论
接之前的求职指南系列,我们来聊聊数分人的基本功统计学。

图片由夸克AI绘制
继续之前对于应届生求职相关内容探讨的话题,我们来聊聊数分基本功,统计学。
市场上所有的泛数据类岗位,不管是数据运营还是数据分析、数据开发甚至是一些算法和AI的岗位,本质上都是从事商业分析的岗位。
统计学的知识几乎是所有泛数据类岗位的基本功,相比之下,统计学关心“数据能不能说明问题”,商业分析关心“数据能不能解决问题”。
两者之间微妙的联系很像理科和工科之间的关系,理科是“发现规律”,工科是“利用规律”。一个想要利用规律的人,一定是以掌握规律作为前提的。类似一个合格的工科生一定会有扎实的理科基础,一个合格的商业分析师一定会被要求扎实的统计学基础。
虽然市面上有些岗位看起来好像对统计分析能力没什么要求,比如大数据开发、数仓开发之类的岗位,但是有点经验的人都会告诉你,一个不懂业务的纯开发就是工具人,是没有前途的。而懂业务其实就是要求你有商业分析的能力。
不过统计学和商业分析本质上还是有很大的差别的,我们通常说商业分析是用数据分析的方法解决商业问题。统计学就是数据分析的重要的构成理论之一(概率论也很重要)。可以这么理解,统计学是“科学”,商业分析则是“工程”。前者怕“错杀”,后者怕“错过”;前者问“这事真的吗?”,后者问“这事值钱吗?”。
很多从业多年的数据分析师都会说我现实工作中其实很少有统计学的应用,以至于我自己都不太记得这些内容了。
实际上这些内容不是不重要,而是多年的从业经验下很多知识点已经变成了一种直觉(比如"这个分析毫无价值","这样看数据没有用"),或者在很多次统计学和商业价值的抉择下商业价值占据了压倒性的低位而让老司机们错觉这个东西根本用不到。
统计学开篇的第一个内容就是数据的分类。
按照计量尺度,我们将统计数据分为分类数据、顺序数据和数值型数据。
分类数据和顺序数据是用来说明事物的品质特征的,通常是用文字来表述的,其结果均可以表现为类别,因此也可以统称为定性数据或者品质数据。数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可以称之为定量数据或者数量数据。
其实这个看似简单的知识点在数据分析的所有工具中都有应用。比如数据库中的数据类型的设置,我们通常会把定性数据设置为varchar或者text格式,而把定量数据设置成int或者double的格式。
之前我也做过一些BI工具相关的教程,在BI工具使用的时候,我们第一步就是要校验数据的格式是否正确。市面上绝大多数的BI工具都会自动识别数据的格式,而这种自动识别很多时候会识别错误,我们要用自己聪明的小脑瓜把这些识别错误的东西给挑出来改成正确的。
按照数据的收集方法,又可以把数据分为观测数据和实验数据。
在统计学上,我们通常把通过调查或观测而收集到的数据称为观测数据,而把在实验室中控制实现对象而收集到的数据称为实验数据。
在商业分析场合,我们绝大多数数据都是观测数据,比如公司的销售额、员工的年龄构成等,都是对客观世界真是情况的缩影,少数情况也也有一些实验数据,比如知名的AB Test。
按照时间状况,又可以把数据分为截面数据和时间序列数据。
截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻变化的情况。时间序列数据则是在不同时间段收集到的数据,这类数据是按照时间顺序收集到的,用于描述现象随时间变化的情况。在统计学上不同类型的数据有着不同的统计方法。
现实的工作中这两种数据的区别也是很常用的,比如我们在统计公司销售量的时候就是一个典型的时间序列数据,但是在一些情况下我们在算业绩提成的时候就会有一些特定的处理。比如公司规定了月中离职的人不发提成,但是我们在计算的时候就会可以把一个时间序列数据搞成一个基于特定规则的截面数据。
很多时候这种处理方式并不是按照怎么处理更能反应客观现实而选择,而是依照了一些管理手段而选择的处理:比如月中离职不发提成能够减少离职率。这种为了商业目的而进行一些特殊化的处理就是企业数据分析和学校里学得理论之间的差别点了。
统计学中有几个经常提到的基本概念,总体和样本、参数和统计量、变量。
总体是包含所研究全部个体的集合,通常由一些研究个集合而成;样本则是从总体中抽取一部分元素的集合,构成样本的元素的数目则称为样本量。
和经济社会分析不一样的是,对于企业来说很多时候我们关注的数据就是总体,只有很少的情况下我们会去研究样本。
统计学中很多的方法都是通过样本去估计总体的,而在商业分析场景中,绝大多数情况下我们拿到得数据就是总体数据,不太存在用样本去估计总体的情况,这就是很多数分老司机会表示实际工作中根本用不上统计学的原因。
参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。统计学的很多场景中,我们并不知道总体的情况,只能用样本的情况去推测总体,我们就会把想要知道的总体参数表示为一个字母。
统计量是用来描述样本特征的概括性数字度量,比如平均值、方差等,当然还有一些用于检验的统计量,比如Z统计量、t统计量、F统计量等。
另一个很常用的概念是变量。变量是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。
类似数据的类型,我们把变量也按照本身的特征分为分类变量、顺序变量和数值型变量。也可以按照随机性分为随机变量或者非随机变量,按照来源分为经验变量和理论变量。
虽然教科书上不怎么重视理论变量,但是在商业分析的场景中,理论变量是一种非常常用的分析手法。简单来说,理论变量是“你想研究的抽象概念”,经验变量是“你能用来测量它的具体数据”。
举个例子,在教育领域,考试成绩就是一种经验变量,而学习动机就是一种理论变量。很多时候我们说牛逼的数据分析师和工具人的数据分析师的差别就在于这种对于理论变量的抽象和构念。这个过程其实是需要通过大量的经验变量来“操作化”的,这也就是牛逼的商业分析师会越老越吃香的原因。