如何利用 Excel 进行高级数据分析?

高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干脆就提前了解吧,请查看以下内容。

在使用之前,首先得安装Excel的数据分析功能,默认情况下,Excel是没有安装这个扩展功能的,安装如下所示:

1)鼠标悬浮在Office按钮上,然后点击【Excel选项】:

2)找到【加载项】,在管理板块选择【Excel加载项】,然后点击【转到】:

3)选择【分析工具库】,点击【确定】:

4)安装完后,就可以【数据】板块看到【数据分析】功能,如下所示:

安装完后,首先来了解一下回归分析的内容。

回归分析

在详细进行回归分析之前,首先要理解什么叫回归?

实际上,回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的 一种有趣的现象:身高这种遗传特性表现出”高个子父母,其后代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生’回归’”。

这种效应被称为”趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间的数量关系模型的方法和程序。 这里的自变量是父母的身高,因变量是子女的身高。

百度百科对于回归分析的定义是: 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛:

1)回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;

2)按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

这里举个电商的例子:电子商务的转换率是一定的,网站访问数一般正比对应于销售收入,现在要建立不同访问数情况下对应销售的标准曲线,用来预测搞活动时的销售收入,如下所示:

1、利用散点图描绘图形:

2. 添加趋势线,并且显示回归分析的公式和R平方值:

从图得知,R平方值=0.9995,趋势线趋同于一条直线,公式是:y=0.01028x-27.424

R 平方值是介于 0 和 1 之间的数字,当趋势线的 R 平方值为 1 或者接近 1 时,趋势线最可靠。因为R2 >0.99,所以这是一个线性特征非常明显的数值,说明拟合直线能够以大于99.99%地解释、涵盖了实际数据,具有很好的一般性, 能够起到很好的预测作用。

3. 使用Excel的数据分析功能

1)点击【数据分析】,在弹出的选择框中选择【回归】,然后点击【确定】:

2)【X值输入区域】选择访问数的单元格,【Y值输入区域】选择销售额的单元格,同时勾选如下所示的选项,包括残差、标准残差、残差图、线性拟合图和正态概率图。

3)以下内容是残差和标准残差:

4)以下是残差图:

残差图是有关于实际值与预测值之间差距的图表,如果残差图中的散点在中轴上下两侧分布,那么拟合直线就是合理的,说明预测有时多些,有时少些,总体来说是符合趋势的,但如果都在上侧或者下侧就不行了,这样有倾向性,需要重新处理。

5)以下是线性拟合图

在线性拟合图中可以看到,除了实际的数据点,还有经过拟和处理的预测数据点,这些参数在以上的表格中也有显示。

6)以下是正态概率图

正态概率图一般用于检查一组数据是否服从正态分布,是实际数值和正态分布数据之间的函数关系散点图,如果这组数值服从正态分布,正态概率图将是一条直线。回归分析不一定得符合正态分布,这里只是仅仅把它描绘出来而已。

以上数据表格和图表都说明公式y=0.01028x-27.424是一个值得信赖的预测曲线,假设搞活动时流量有50万访问数的话,那么预测销售将是51373,如下图所示:

来源 | szwebanalytics

PPV课精选的每一篇文章均来源于公开网络,仅供学习使用,不会用于任何商业用途,都会注明来源和作者(除非找不到),文章版权归原作者所有,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:149104196@qq.com。转载PPV课网站文章请注明原文章作者,否则产生的任何版权纠纷与PPV课无关。


1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

本公众号专注大数据和数据科学领域,分享领域知识和相关技术文章,探索大数据商业价值,培养和挖掘大数据专业人才,欢迎大家关注!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-03-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术翻译

10个用于人工智能的开源工具/框架

TensorFlow™是一个开源软件库,最初由研究Google Brain Team的研究人员和工程师开发。TensorFlow用于使用数据流图进行数值计算。图...

1.8K20
来自专栏机器人网

一个简单的多机器人编队算法实现--PID

用PID进行领航跟随法机器人编队控制 课题2:多机器人编队控制 研究对象:两轮差动的移动机器人或车式移动机器人 研究内容:平坦地形,编队的保持和避障,以及避障和...

52370
来自专栏人工智能

老师木讲架构:深度学习平台技术演进

新智元推荐 来源:OneFlow 【新智元导读】近日,袁进辉(老师木)代表OneFlow团队在全球互联网架构大会上海站做了《深度学习平台技术演进》的报告。报告包...

58680
来自专栏PPV课数据科学社区

【数据挖掘】rattle:数据挖掘的界面化操作

R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,...

36060
来自专栏华章科技

为什么你的数据分析那么好,图表做得那么烂?

所有优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当然并非...

13820
来自专栏月色的自留地

从锅炉工到AI专家(11)(END)

24770
来自专栏PPV课数据科学社区

【必看工具】可视化图表表达的10个错误。

数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错...

30660
来自专栏CSDN技术头条

25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。W...

25880
来自专栏AI科技评论

动态 | ACL 2018 公布四篇最佳 demo 候选论文,三篇论文第一作者来自中国

雷锋网 AI 科技评论按:7 月 9 日,自然语言处理顶会 ACL 公布了最佳 demo 论文的四篇候选论文,名单如下:

14940
来自专栏机器之心

专栏 | 如何对比评价各种深度神经网络硬件?不妨给它们跑个分

矽说专栏 作者:唐杉 作者简介:唐杉博士先后在 T3G(STE)、中科院计算所、紫光展锐(RDA)工作。具有 15 年以上的芯片设计经验,在 3G/4G 通信基...

35270

扫码关注云+社区

领取腾讯云代金券