文章/答案/技术大牛

发布

社区首页 >问答首页 >Python Scipy spearman矩阵相关不匹配两个数组相关，也不匹配pandas.Data.Frame.corr()

问Python Scipy spearman矩阵相关不匹配两个数组相关，也不匹配pandas.Data.Frame.corr()
EN

Stack Overflow用户

提问于 2018-07-18 00:37:17

回答 1查看 1.1K关注 0票数 5

我在计算矩阵的spearman相关性。我发现在使用scipy.stats.spearmanr时，矩阵输入和双数组输入给出了不同的结果。结果也与pandas.Data.Frame.corr不同。

from scipy.stats import spearmanr # scipy 1.0.1
import pandas as pd # 0.22.0
import numpy as np
#Data 
X = pd.DataFrame({"A":[-0.4,1,12,78,84,26,0,0], "B":[-0.4,3.3,54,87,25,np.nan,0,1.2], "C":[np.nan,56,78,0,np.nan,143,11,np.nan], "D":[0,-9.3,23,72,np.nan,-2,-0.3,-0.4], "E":[78,np.nan,np.nan,0,-1,-11,1,323]})
matrix_rho_scipy = spearmanr(X,nan_policy='omit',axis=0)[0]
matrix_rho_pandas = X.corr('spearman')
print(matrix_rho_scipy == matrix_rho_pandas.values) # All False except diagonal
print(spearmanr(X['A'],X['B'],nan_policy='omit',axis=0)[0]) # 0.8839285714285714 from scipy 1.0.1
print(spearmanr(X['A'],X['B'],nan_policy='omit',axis=0)[0]) # 0.8829187134416477 from scipy 1.1.0
print(matrix_rho_scipy[0,1]) # 0.8263621207201486
print(matrix_rho_pandas.values[0,1]) # 0.8829187134416477

后来我发现熊猫的rho和R的rho是一样的。

X = data.frame(A=c(-0.4,1,12,78,84,26,0,0), 
  B=c(-0.4,3.3,54,87,25,NaN,0,1.2), C=c(NaN,56,78,0,NaN, 143,11,NaN), 
  D=c(0,-9.3,23,72,NaN,-2,-0.3,-0.4), E=c(78,NaN,NaN,0,-1,-11,1,323)) 
cor.test(X$A,X$B,method='spearman', exact = FALSE, na.action="na.omit") # 0.8829187

但是，Pandas的corr不适用于大型表(例如，here，我的情况是16,000)。

多亏了Warren Weckesser的测试，我发现Scipy1.1.0(但不是1.0.1)的两个数组结果与Pandas和R的结果相同。

如果您有任何建议或意见，请告诉我。谢谢。

我使用Python: 3.6.2 (Anaconda)；Mac OS: 10.10.5。

python

python-3.x

pandas

scipy

correlation

回答 1

Stack Overflow用户

发布于 2018-07-18 02:49:23

当输入是一个数组并且给定了一个nan时，看起来scipy.stats.spearmanr没有像预期的那样处理axis的值。下面是一个脚本，它比较了几种计算成对Spearman等级-顺序相关性的方法：

import numpy as np
import pandas as pd
from scipy.stats import spearmanr


x = np.array([[np.nan,    3.0, 4.0, 5.0, 5.1, 6.0, 9.2],
              [5.0,    np.nan, 4.1, 4.8, 4.9, 5.0, 4.1],
              [0.5,       4.0, 7.1, 3.8, 8.0, 5.1, 7.6]])

r = spearmanr(x, nan_policy='omit', axis=1)[0]
print("spearmanr, array:           %11.7f %11.7f %11.7f" % (r[0, 1], r[0, 2], r[1, 2]))

r01 = spearmanr(x[0], x[1], nan_policy='omit')[0]
r02 = spearmanr(x[0], x[2], nan_policy='omit')[0]
r12 = spearmanr(x[1], x[2], nan_policy='omit')[0]

print("spearmanr, individual:      %11.7f %11.7f %11.7f" % (r01, r02, r12))

df = pd.DataFrame(x.T)
c = df.corr('spearman')

print("Pandas df.corr('spearman'): %11.7f %11.7f %11.7f" % (c[0][1], c[0][2], c[1][2]))
print("R cor.test:                   0.2051957   0.4857143  -0.4707919")
print('  (method="spearman", continuity=FALSE)')

"""
# R code:
> x0 = c(NA, 3, 4, 5, 5.1, 6.0, 9.2)
> x1 = c(5.0, NA, 4.1, 4.8, 4.9, 5.0, 4.1)
> x2 = c(0.5, 4.0, 7.1, 3.8, 8.0, 5.1, 7.6)
> cor.test(x0, x1, method="spearman", continuity=FALSE)
> cor.test(x0, x2, method="spearman", continuity=FALSE)
> cor.test(x1, x2, method="spearman", continuity=FALSE)
"""

输出：

spearmanr, array:            -0.0727393  -0.0714286  -0.4728054
spearmanr, individual:        0.2051957   0.4857143  -0.4707919
Pandas df.corr('spearman'):   0.2051957   0.4857143  -0.4707919
R cor.test:                   0.2051957   0.4857143  -0.4707919
  (method="spearman", continuity=FALSE)

我的建议是不要以spearmanr(x, nan_policy='omit', axis=<whatever>)的形式使用scipy.stats.spearmanr。使用Pandas DataFrame的corr()方法，或使用循环使用spearmanr(x0, x1, nan_policy='omit')成对计算值。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51386399

复制

相似问题

问Python Scipy spearman矩阵相关不匹配两个数组相关，也不匹配pandas.Data.Frame.corr()
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scipy spearman矩阵相关不匹配两个数组相关，也不匹配pandas.Data.Frame.corr()EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scipy spearman矩阵相关不匹配两个数组相关，也不匹配pandas.Data.Frame.corr()
EN