前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pearson与spearman相关系数的比较

pearson与spearman相关系数的比较

作者头像
生信编程日常
发布2020-04-24 15:52:09
3.3K0
发布2020-04-24 15:52:09
举报
文章被收录于专栏:生物信息学、python、R、linux

相关性(correlation)是指两个随机变量之间的关系,可以衡量两个变量间关系的强弱和方向。一般我们常用的是皮尔森相关系数和斯皮尔曼相关系数。

皮尔森相关系数(pearson correlation coefficient, PCC)是衡量两个连续型变量的线性相关关系。

pearson_wiki

斯皮尔曼相关系数(spearman's rank correlation coefficient, SCC)是衡量两变量之间的单调关系,两个变量同时变化,但是并非同样速率变化,即并非一定是线性关系。

spearman_wiki

某些情况下两种结果是一致的:

线性相关

随机

当不完全是线性关系时:

另外,当有离群点时,两者的处理是明显不同的。创建一个数据集,并且加上离群点:

代码语言:javascript
复制
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

#  加入离群点
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot 
par(mfrow=c(1,2))
plot(x1, y1, main="No outlier", col = 4, pch = 7, cex = 0.8)
plot(x2, y2, main="With outlier", col = 6, pch = 7, cex = 0.8)


# Calculate correlations 
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

相关系数输出:

即在没有离群点的时候,两者都是0.44;但是当存在离群点之后,pearson系数变成了0.69,但是spearman仍是0.44。spearman系数会考虑这种存在离群点的情况,更加稳定。

参考: (1) https://stats.stackexchange.com/questions/11746/what-could-cause-big-differences-in-correlation-coefficient-between-pearsons-an (2) https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-spearman-correlation-methods/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档