首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析方法——常用的数据分析指标和术语

数据分析方法——常用的数据分析指标和术语

作者头像
陈学谦
发布2020-06-04 14:55:03
1.4K0
发布2020-06-04 14:55:03
举报

在进行数据分析时,我们往往不会对原始的一条一条的数据直接进行分析,因为那毫无意义。通常,需要对数据先做一些聚合运算,比如求和、求平均值、计数等,也就是会用到一些分析指标和术语,这些指标和术语可以帮助我们打开思路,从多种角度对数据进行深度解读。

1、平均数(average)

一般来说是指算术平均数,也就是一组数据的算术平均值,即全部数据累加除以数据个数的结果。

例如:某公司1-4月的销售额分别为200万、300万、400万、500万,那么平均季度销售额为(200 + 300 + 400 + 500)/ 4 = 350,即平均季度销售额为350万。

平均数是数据分析中最常用的聚合计算之一,在大部分数据分析中都有它的身影,不过也常常会误导人得出错误的结论。

2、绝对数(absolute number)与相对数(relative number)

绝对数:是总量指标,也就是聚合求和,它是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标。例如:公司年销售额5300万,公司总人数450 人等。

相对数:一般来讲,就是比值,两个有关联的数据之间的对比关系,往往用来反映一些对比变化。相对数的计算公式:相对数 = 比较值(笔数)/基础值(基数)

相对数一般以倍数、成数、百分数等表示,反映的是两个数之间的关系程度。例如:公司女员工人数占比40%;公司男女员工比例为3:7;本月销售额是上个月的5倍;本季度销售额只完成任务的7成等。

3、百分比与百分点

百分比:其实也是相对数中的一种,不过要比的分母是1,也称为百分率或百分数。

运用百分数时,也要注意概念的准确性。例如:“比过去增长30%”,即过去为100,现在是“130”;“比过去降低20%”,即过去是100,现在是“80”;“降低到原来的70%”,即原来是100,现在是“70”等。这个在小学和初中其实已经都学习过了。

百分点:指不同时期以百分数形式表示的相对指标(如:速度、指数、构成等)的变动幅度。

例如:公司所有产品销售总额中,A产品的销售占比由去年的25%上升到今的35%,我们可以说:公司销售总额中,A产品所占的比重,今年比去年上涨了10个百分点(35-25=10);但这里不能说上涨了10%,因为占比增长是用25%和35%之前做除法,而不是减法。

需要注意的是,除法,在很多时候,会出现分母为0的情况。各个数据分析语言中都有防止分母为0时出现错误的避免措施,如:vba中需要加上一条on error resume next,python中需要使用replace(np.inf,0)来替换,在SQL中可能要这样写(case when B=0 then 0 else A/B end),而PowerBI的DAX倒是可以直接用DIVIDE来安全计算。

4、频数(Frequency )和频率(Relative frequency)

频数:在一组数据中,某个数据出现的次数叫作频数。也叫做聚合计数。

频率:某个数据出现的次数与总次数的比值称为频率。

例如:让曾小贤随机抛一枚硬币10次,正面朝上有4次,反面朝上有6次,这里硬币正面朝上的频率是4/10,正面朝上的频数就是4,反面朝上的频率是6/10,反面朝上的频数是6。初高中的概率论讲的很清楚。

5、比例(proportion)和比率(ratio)

比例:表示总体中的某一部分数量占总体数量的比重, 反映总体的构成或者结构。一般用百分比的形式表示。

比率:表示总体中两个部分之间的比较,反应总体中各部分的关系,用几比几的形式表示。

例如:公司有50人,男生30人,女生20人,男生比例是30:50, 女生的比例是20:50,男生与女生的比率是30:20

6、倍数(multiple)与番数(doubling)

倍数:表示一个数据是另一个数据的几倍,通常用一个数据除以另一个数据获得。例如:A/B=C,那么A是B的C倍。

番数:指原来数量的2的n次方倍。例如:公司去年利润为200万,今年利润比去年翻一番,即400万(200 * 2);今年利润比去年翻两番,即800万(200 * 2 * 2)。

7、同比(year-on-year)与环比(month-on-month)

同比:与历史同时期的数据进行比较得到的数值。历史同时期又分为去年同期比较月份、上季度同期比较周、上月同期比较日、昨日同期比较小时等。

例如:某公司今年一季度甲公司的利润同比增加20%,意思是今年一季度甲公司的利润比去年一季度甲公司的利润增加20%,这就是同比。

环比:与前一个统计周期相除得到的数值。2020年的5月相比4月,二季度相比一季度,31日对比30日,都是环比。

例如:我公司今年二季度乙公司的利润环比增加30%,意思是今年二季度乙公司的利润比一季度增加30%。

8、字段与记录

字段:是代表事物或现象某种特征的变量。例如:下表中的"订单ID“、"发货日期"等。

记录:是事物特征的具体表现。例如:下表中的一行即为一条记录。

9、众数

数据集合中出现次数最多的那个数值,我们就称之为众数。

例如:数据集合{1、3、7、6、3、4、3、2、9、3}中众数为3。因为3出现了3次,是最多的。

不过有些时候,比如这个集合{6、3、7、6、3、4、3、2、6、3},3和6都出现了3次,那么3和6都是这个集合的众数。

众数在某些时候也能够得到比平均值更为真实的结果。

10、中位数

将数据集合中所有数据按照从大到小或从小到大的顺序排列,居于最中间的那个数值即为该集合的中位数。若集合中数值个数为奇数,那么最中间一个就是中位数,如果集合中数值个数为偶数,取最中间两个数值的算术平均数为中位数。

例如:{2、7、9、9、13、18、20}中有7个数,中位数为9;{1、3、7、8、9、12、13、19}中有8个数,中位数为(8+9)/2=8.5。

平均数很多时候能够导致错误的结论,比如马云身价200亿,小明身价10万,小雨身价20万,小新身价200万,马化猴5万,朱潜龙8万。一平均得出结论,5人平均身价40亿,这显然不符合实际情况,但这确实是当前很多新闻媒体在巧妙使用的伎俩。而如果用中位数,则会得出20万,这个还是能反映实际情况的。

所以总理在今年的会议闭幕时说:中国人均年收入3万 但有6亿人月收入1000元,年平均收入3万已经很低了,但月收入1000元,年收入不足1.5万元更能反映中国当前的实际情况。

11、加权算术平均数

上文说过,算数平均数很多时候是不准确的,不过某些时候我们仍然想使用算数平均数,因为我们发现使用中位数或者众数可能得出的更不准确。这时候我们可以采取加权算数平均值的方式。

加权算术平均数是计算具有不同权重的数据的算术平均数。

“数据的权重”是反映一个数据在数据集合中的重要性,一般用权数来表示。重要性越高,权数就越大,对结果的影响力就越大。

将数据集合中各数据乘以相应的权数,然后加总求和再除以所有权数之和,即为该数据集合的加权算术平均数。它适用于已分组数据集合。

12、几何平均数

在分析产品合格率、银行利率、平均发展速度等问题时,数据之间的关系不是加减关系,而是乘除关系,应运用几何平均数分析。

将数据集合中的n个数据连乘积的n次方根称为几何平均数。

假设一个数据集合的数据分别为 x1,x2,x3……xn,且所有数值都大于0,那么该数据集合的几何平均数公式为:

例如:某工厂有一条生产线有三道工序,每道工序的产品合格率分别为93%、88%、94%,计算这条生产线的平均合格率。

由于只有合格品才能进入下一道生产工序,所以每道工序的合格率之间是乘积关系,利用几何平均数公式分析可得:

几何平均数也是基础数据分析中一个常用的指标,尤其是在进行一些费米问题的估算时,往往比使用算数平均值更合理。

12、其他

除了以上说的指标,常用的指标还有最大最小值、方差、标准差、协方差等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PowerBI生命管理大师学谦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档