前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析实例:统计学在数据分析中的应用实例

数据分析实例:统计学在数据分析中的应用实例

作者头像
沉默的白面书生
发布2018-12-27 17:28:11
4.7K1
发布2018-12-27 17:28:11
举报

最近数据分析真的很火,很多人想学,在大数据这个概念的催生下,数据分析俨然成为了职场的必备技能之一,而很多教育培训机构或者个人也非常会抓住商机,在普遍焦虑的情况下,推出了非常多的数据分析课程,从互联网数据分析、电商数据分析到零售数据分析,从数据抓取、数据分析、数据挖掘到数据可视化,可谓百花齐放。

但是作为数据分析师,内功还是非常重要的,而内功之一,就是统计学知识,这点是非常重要的。任正非很重视统计学。他说:计算机科学不仅仅是技术,还应该以统计学为基础。大数据需要统计学,信息科学需要统计学,生命科学也需要统计学。国家要搞人工智能,更要重视统计学。统计学不是一个纯粹的学科,而是每一个学科都要以统计学为基础。

下面2几个例子吧:

某互联网公司希望激活数量可观的沉默用户,设计了3个方案,将所有沉默用户随机分布在规模相同的三个群中,将3套方案实施在这3个群体中,观察3个群体中每天成功唤醒的用户数量,下图是3个方案实施8天后的数据:

那么作为数据分析师,要如何依据上面的数据衡量每个唤醒方案的效果,选出最优方案呢?这个问题结合业务的分析,还是可以实现的。但是这里主要结合基本的统计学知识来做基本的分析。

我们先假设这3个方案的用户激活数的均值是相等的。我们需要通过统计学的方法来验证这个假设是否正确,如果满足这个条件,则接受这个假设,说明这3个方案的效果是相同的,如果不满足一定的条件,就拒绝这个假设,说明这个3个方案激活效果是不一样的,那么才有接下来的深层分析。

这里我们对这3个方案的数据做了单因素方差分析,得到的结果如下图:

在这里主要看红框中的结果,MS值得是均方和,F指的是F检验统计量的值,P-value值得是出现当前结果的概率,说明的是,在原假设成立的前提下,3个方案均值分别的1024、1073、1043的概率仅为0.045,低于显著性概率0.05,如此小概率的事件在一次实验中发生是不可能的,因此要拒绝原假设,也就说这3个方案所激活的沉默用户的均值是不相同的。

那到底是哪个方案最优呢?在证明了3个方案的效果均值不同之后,最简单的方案就是看均值,均值最高的就是最优的方案,因此可以选择方案2。

但是,我们都会知道,均值反应的是数据的集中趋势,数据还有波动性,如果方案2的均值最大,但是对应的方差很大,那依据均值来判断就不是那么可靠了。

如果要精确对比出哪个方案最优,还需要对这3个方案两两组合做T检验,目的是对比两个样本是否来自均值相等的总体,也就是告诉你两个样本的均值差别是不是显著的。

通过T检验,我们得到了如下结果:

我们通过上图发现,方案1和方案2之间呈现出了显著性,可以判断方案2是优于方案1的,至于方案1和方案3,暂时没有足够的证据判断他们的优劣。在这里呢,可以继续用均值来做比较就会准确很多了。

第二个案例:

某互联网公司开发了一个识别商家是否是恶性商户的模型M1。在使用模型之前,人工监察团队说,目前平台上的恶性商户比率为0.2%。利用M1模型监测后,发现在之前人工判定的恶性商户中,有模型判定为恶性上海的人数占比为90%,在人工判定的健康商户中,有M1判定为恶性上海的人数占比为8%,通过这些分析会感觉多商户有8%的误杀,还有10%的漏判,那么这个模型的结果到底是不是可靠的呢?

在这里我们利用贝叶斯模型来做分析,通过贝叶斯模型计算,我们的都恶性商户的比例为2.2%,也就是说,根据M1的判别结果,某个商户实际为恶性商户的概率为2.2%,是不进行模型判别的11倍。

虽然2.2%的概率并不算高,但在实际情况中,被M1模型判别为恶性上海,说明这家商户做出恶性行为的概率是一般商户的11倍,非常有必要用进一步的手段检查。

通过以上分析,主要还是想说明一点,统计学知识在数据分析中,起着非常重要的作用,是数据分析师需要掌握的内功心法。

Excel是使用最为广泛、最为便捷的办公软件,而且它的数据分析和挖掘功能功能十分强大,能够快速完成所有的数据清洗的过程,能够快速建立分析模型,并且快速运行得出结果,是做数据分析必备的工具。

下面是即将在我的小密圈里分享的120个Excel商业数据分析实战案例目录,欢迎看我个人资料联系我:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.12.18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档