首页
学习
活动
专区
工具
TVP
发布

杂谈数据分析

前言

数据分析(Data Analysis)

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

在实用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。

方法

1、相关分析

释义:

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母R表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。

缺点:

需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

相关系数:

在Excel中,可以使用CORRE函数求解相关系数。

=CORREL(A列数据,B列数据)

两组数据相关性结果在[-1,1]之间,正数代表正相关,负数代表负相关,结果若为正数,越大代表正相关性越强,反之正相关性越弱;结果若为负数,越小代表负相关性越强,反之负相关性越弱;

需要注意:

Excel函数选取的2列数据,每组数据的样本个数要一样多。

拟合优度:

在Excel中,制作好散点图后,可以选中数据右键-添加趋势线-线性、显示公式、显示R平方值。此R方也可以用来查看数据相关性,R方的结果在[0,1]之间,结果越趋向与1,代表相关性越强,越过越趋向与0,代表相关性越弱。

此R方也有一个学名:可决系数。它是反应多元线性回归的结果。在统计学上同样有一个公式也可以进行计算可决系数,即“拟合优度”。

拟合优度,是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。

如果各位之前一直在使用散点图出R方值观测数据相关性的话,不妨试一下使用相关系数来代替R方值,相比较相关系数可以观测出数据之间的相关性是呈现正或负,而R方值是不可以得出此类结论的。

小结:

仅仅使用相关分析是不够的,相关分析的结果只会帮助我们知道以上2组数据有相关性,但这种相关性是相互的,我们无法确定是X的变化影响了Y多少。

例如:将本地区所有21-22周岁的男性身高与体重进行统计,我们可以发现一个规律,往往身高越高的人,体重也会越大。这两组数据存在相关性,但我们无法确定身高每增加1厘米,体重大约会增加多少;或者说体重每增加1KG,身高可以提升多少厘米。

所以,要真正的将结果进行落地使用,单从相关分析上做出处理还不足够,还须通过回归分析来证明两者的影响程度。

2、回归分析

线性回归:回归分析有7中方法,第一种是线性回归。

这个方法非常简单,大家中学时也一定都学过一个函数图像,Y=kX+b,这就是一个简单的线性回归。

线性回归是将所有的数据进行排布后,计算出的一条最佳拟合的直线,这条直线可以反映出因变量Y和自变量X之间的关系。

在线性回归中,公式是Y=(a+b)*X+e,其中a表示截距,b表示直线的斜率,e是误差项。

多项式回归:

多项式回归也非常的简单,他与线性回归比较类似,公式是y=a+b*x^2。

与线性回归的不同点在于线性回归是寻找所有数据中最拟合的直线,而多项式回归是寻找的曲线。

例如:我们发现呼叫中心的服务水平与接通率存在一定的相关性,当服务水平越高,接通率就会越高,但服务水平一定会小于等于接通率。现在有多组数据进行分析,如果使用线性分析,结果会告诉你接通率大概是服务水平的1.2倍,即服务水平达成60%时,接通率预计是达成72%,但这个结论有一个误区,就是当服务水平如果达成85%的话,按照线性回归的结论,接通率预计可以达成102%,但大家都知道这个是不可能的,接通率是不可能超百的。所以接通率与服务水平之间存在的关系并不是线性的关系,而可以使用多项式的方式进行分析,因为多项式是一种曲线,在到达某个峰值时,会逐渐放缓。

逻辑回归:

逻辑归回适用于进行预测是与否,通过与不通过这类只有2种答案的情况。

例如考试结果是以80分为通过还是以90分通过;客户信用等级是80分以上算为高信誉客户还是70分以上算为高信誉客户。

他的分析方法较为复杂,需要使用到Excel表中的”数据分析”与”规划求解”计算概率P(x),最终是通过将每种事件的概率做S曲线图来进行判断通过或达标的标准。

有兴趣的小伙伴可以百度学习,难度不高,只是较为复杂繁琐,且适用性较为单一。

其他回归类型:逐步回归、岭回归、套索回归、ElasticNet回归,实用性较低,且难度较高,本次暂不进行探讨。

小结:

通过各种回归分析的方法,我们可以计算出有相关性的X和Y两个数据,在相互的影响中,是怎样的关系。

还是用相关分析的身高与体重的例子。在使用回归分析后,我们基本可以得出一条本地21-22周岁男性身高与体重的线性规律,即Y=1.053X-119.1(数据只是例子,并不是真实采集的样本!!!)身高单位是CM,体重单位KG。

通过线性回归分析的结果,我们可以预测,本地21-22周岁的男性,如果身高在165CM,那么他的体重应该在54.645KG左右,同样我们也可以将函数逆向求解,即如果体重在70KG,那么他的身高应在179.58CM左右。

数据分析到这一步,完成度基本已经到90%了,最后只差临门一脚,但这最后一步,也是最重要的逻辑分析。

3、逻辑分析

说明:逻辑分析,也叫因果分析。

通过上述方法,我们可以分析出多组数据之间存在的相关性情况,且相互影响,但并不能立即进行实际应用。在应用之前,我们还需要从理论、逻辑上证明被统计的数据之间存在相关性。

案例:

案例1:我们拿到一组数据,冰淇淋的销量和啤酒的销量正相关,这就是相关性。但是这个结论可以直接用来应用吗?

我们都知道这两者是随气温变化而出现相关的,天气热的时候大家都喜欢吃冰激凌喝啤酒,但冰激凌与啤酒之间并没有因果关系。如果贸然套用相关性,那么在世界杯期间,随着啤酒销量上涨,如果厂家增加冰激凌产量,那就可能造成损失了。

案例2:再例如在呼叫中心行业,我们都能察觉到一个现象,想要离职的员工,在离职之前往往会频繁出现缺勤、质量下降等情况,缺勤、质量、流失这几组数据也会存在相关性。但这几组数据所反映的结果,并不是告诉我们只要管理好缺勤就不会有流失,而是让我们发现相关性后,通过后期的缺勤、质量数据,发现不稳定人员并进行及时沟通,缓解员工压力,及时的挽留预离职人员进行减少可控的流失。

小结:

逻辑分析这一步,主要是在告诉大家一个道理,通过数据计算出的结果固然重要,但我们还要让其他人在逻辑上可以接受这个结果。

依然是身高与体重的例子。两者虽然相互影响,但我们是不可能通过操控体重去影响身高的,并不是吃的越多就会长的越高,但身高往往对体重的影响很大,身材高大的人,往往体重也会比较大。这就是身高与体重的逻辑关系。

这种案例非常的多,再例如大家经常混淆的一个事情。日常的生活经验让很多成年人发现,当身体感冒生病转好的时候,往往会出现出汗的情况,两者相关性非常高。所以大部分人选择不吃药用床单包裹自己,让体温升高出汗从而治好感冒。但实际情况是:发烧是免疫系统和疾病斗争的过程,当斗争以免疫系统的胜利结束后,机体就会自动降温,降温的手段就是出汗。所以说,出汗是疾病好转的结果而非原因!

能发现相关性是非常好的,但如果将因果倒置,先后颠倒,将会适得其反。

三、结语

1、现将数据做散点图与相关性分析,确定两组数据是是否存在相互关系;

2、将有相互关系的数据做回归分析,确定数据的方向性与影响程度;

3、从理论、逻辑上加以阐述这因果关系确实存在。

作者 李帅

山东澳迪赛企业管理咨询有限公司

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180313G0XJ3400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券