数据分析之相关分析

描述性分析只能分析数据呈现出来的基本特征,不能挖掘变量之间深层次的关系,无法为后期模型的建立及预测做准备。这个时候就需要掌握推断性分析方法,第一个方法就是相关分析。

哲学告诉我们,世界是一个普遍联系的有机整体,现象之间客观上存在着某种有机联系,一种现象的发展变化必然受与之相联系的其他现象发展变化的制约与影响。在统计学上,这种依存关系可以分成相关关系和回归函数关系两大类。

文/黄成甲

相关分析

(1)相关关系

相关关系是指现象之间存在着非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生变化会影响到另一现象数量上的变化,而且这种变化在数量上具有一定的随机性。即当给定某一现象一个数值时,另一个现象会有若干个数值与之对应,并且总是遵循一定的规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。例如,影响销售的因素除了推广费用外,还有产品质量、价格、渠道等因素。

(2)回归函数关系

回归函数关系是指现象之间存在着依存关系。在这种依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来。例如,在一定条件下,身高和体重存在着依存关系。

相关分析可分为线性相关和非线性相关,线性相关也称为直线相关,非线性相关从某种意义来讲也就是曲线相关。

线性相关是最常用的一种,即当一个连续变量发生变动时,另一个连续变量相应地呈现线性关系变动,用皮尔逊(Pearson)相关系数R来度量。

皮尔逊相关系数R就是反映连续变量之间线性相关强度的一个度量指标,它的取值范围限于【-1,1】。R的正负号可以反映相关的方向,当R>0时表示线性正相关,当R<0时表示线性负相关。R的大小可以反映相关的程度,R=0表示两个变量之间不存在线性关系。通常相关系数的取值与相关程度如图:

相关系数与相关程度对应表

相关分析一般通过散点图来研究,如果变量在二维坐标中构成的数据点分布在一条直线的周围,那么久说明变量间存在线性相关关系。

散点图

相关关系不等于因果关系,相关性表示两个变量同时变化,而因果关系是一个变量导致另一个变量变化。例如,一项统计研究显示游泳时溺水人数越高,冰淇淋销售就越多,也就是游泳溺水人数和冰淇淋销售量之间呈线性正相关。由此可以得出结论:吃冰淇淋就会增加游泳溺水的风险吗?显然,这两个事件都受夏天到了气温升高所影响。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

大连理工大学在CVPR18大规模精细粒度物种识别竞赛中获得冠军

近日,引人瞩目的国际计算机视觉与模式识别大会CVPR 2018在美国盐湖城落下帷幕。在为期5天的会议中,除了有精彩的口头报告、墙报张贴以及企业展示之外,还有对极...

13420
来自专栏AI科技大本营的专栏

被捧上天的深度学习,遇到这些问题根本干不过简单模型

今天我们来唱唱反调,推荐一篇Hacker News和Reddit的双料热文《何时该不用深度学习》。 作者 | Pablo Cordero 翻译 | reason...

35990
来自专栏AI科技评论

KDD2016论文亮点解析(一)

导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。 论文一题目:稳定流体近似的卷...

34860
来自专栏PPV课数据科学社区

【译文】统计建模的24种应用(上)

在这里,我们讨论统计模型的一般应用情况。不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学,如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数...

34540
来自专栏灯塔大数据

塔荐 | 从神经科学到计算机视觉:人类与计算机视觉五十年回顾

前 言 本文简单的介绍了神经网络近50年的发展历程,从1968年的Hubel和Wiesel开展的猫实验,一直到李飞飞教授等人的成果。从本质上讲解了人工神经网络...

34690
来自专栏人工智能头条

高铁新建人脸识别系统,如何做到整容也可以识别逃犯?

1.2K60
来自专栏AI科技大本营的专栏

【NLP年度重磅盘点】12项重大行业突破!详解2017年深度学习加持下的NLP大事件

翻译 | 林椿眄、刘畅、彭硕 编辑 | Donna Suisui 过去几年,深度学习架构和算法在图像识别和语音处理等领域取得了重大的进步。而在NLP(自然语言处...

43580
来自专栏新智元

【祖母论与还原论之争】为什么计算机人脸识别注定超越人类?

【新智元导读】 近日, Cell 的一项研究在人脸识别领域引起轰动,研究揭示了灵长类动物人脸识别的具体神经元活动过程——对脸部的识别是由大脑中 200 多个不同...

400110
来自专栏前沿技墅

卷积网络虽动人,胶囊网络更传“神”

24940
来自专栏浮生的专栏

机器学习为更好的火灾现场安全

当勇敢的消防员身处险境试图抢救其他人和他们的财产的时候,他们的生命同样受到了威胁。在这篇文章中,我想分享我在AAIA第15届数据挖掘竞赛中的经验和获奖策略:给火...

25240

扫码关注云+社区

领取腾讯云代金券