前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析利器之相关性分析

数据分析利器之相关性分析

作者头像
三猫
发布2022-03-15 11:36:38
1.3K0
发布2022-03-15 11:36:38
举报

导读:相关性分析在量化分析、行业分析、机器学习等领域都有着普遍的应用,本文将围绕相关性分析的定义、相关性系数等重点知识展开介绍,更多数据分析干货可点击数据分析方法论(干货)

1、什么是相关性分析

  • 相关关系 当变量间有十分密切的关系,但不能用精确的数学表达式明确如何从一个或多个变量求出另一变量的值,则称这些变量有相关关系。相关关系是一种非确定性关系
  • 相关性分析 相关性分析指对有相关关系的变量进行分析,衡量变量间的相关程度。
  • 相关关系不等于因果关系 因果关系是相关关系,而相关关系不一定是因果关系。A和B相关可以分为以下五种关系: A导致B 直接因果 B导致A 反向因果C导致A和B 共因关系 A和B互为因果 双向因果 A和B无关系巧合 比如经济学里有一个“裙长理论”,认为女人的裙子长度和社会经济情况成反比,这个理论表述的是裙子长度和经济情况有相关性,但裙子长度并不是导致经济变化的原因。通常,要证明两个有相关关系的变量还有因果关系,还需要证明两个变量有时间先后、发生机制等方面的联系。

2、相关性系数

  • Pearson相关系数 又称皮尔逊相关系数,变量需服从正态分布,描述变量间的线性关系。如:叶片养分元素含量与土壤有效养分元素含量之间的Pearson相关系数。

import scipy.stats x = [1, 2, 3, 4, 5, 6, 7, 8, 9] y = [2, 1, 2, 4.5, 7, 6.5, 6, 9, 9.5] pearson_corr = scipy.stats.pearsonr(x, y)[0] #或pandas中用data.corr(),data为数据框

  • Spearman秩相关系数 又称斯皮尔曼相关系数,可用于不服从正态分布变量,根据原始数据的排序位置进行求解,描述变量间的单调关系。如:智商数与成绩得分的排名情况。

import scipy.stats x = [1, 2, 3, 4, 5, 6, 7, 8, 9] y = [2, 1, 2, 4.5, 7, 6.5, 6, 9, 9.5] pearson_corr = scipy.stats.spearmanr(x, y)[0] #或pandas中用data.corr('spearman'),data为数据框

3、相关性系数两个维度

相关系数取值一般在-1~1之间,可从如下两个维度进行解读:

  • 大小 相关系数的绝对值越接近1,表示两个变量间相关性越强。
  • 方向 相关性系数大于0表示两个变量呈正相关关系,否则为负相关关系。

4、学习卡

下图对相关性分析方法重点内容进行了罗列,可保存到相册随时查看。

参考材料:

https://zhuanlan.zhihu.com/p/36441826

https://www.sohu.com/a/445463180_114819

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档