仅对数组的1列高效计算皮尔逊相关系数

皮尔逊相关系数（Pearson correlation coefficient）是一种用于衡量两个变量之间线性相关程度的统计指标。它的值介于-1和1之间，其中1表示完全正相关，-1表示完全负相关，0表示没有线性相关。

基础概念

皮尔逊相关系数的计算公式为： [ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} ] 其中，( x_i ) 和 ( y_i ) 是两个变量的观测值，( \bar{x} ) 和 ( \bar{y} ) 分别是这两个变量的均值。

优势

线性关系检测：能够有效检测两个变量之间的线性关系。
标准化：结果不受变量尺度的影响，便于不同量级数据间的比较。
广泛应用：在统计学、数据分析、机器学习等领域有广泛应用。

类型

正相关：当 ( r > 0 ) 时，表示两个变量之间存在正相关关系。
负相关：当 ( r < 0 ) 时，表示两个变量之间存在负相关关系。
无相关：当 ( r = 0 ) 时，表示两个变量之间没有线性相关关系。

应用场景

金融分析：评估不同资产之间的相关性。
市场研究：分析消费者行为与市场趋势的关系。
生物信息学：研究基因表达数据间的关联。

计算示例

假设我们有两个数组 x 和 y，我们想要计算它们之间的皮尔逊相关系数。

import numpy as np

def pearson_correlation(x, y):
    # 计算均值
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    
    # 计算分子和分母
    numerator = np.sum((x - mean_x) * (y - mean_y))
    denominator = np.sqrt(np.sum((x - mean_x)**2) * np.sum((y - mean_y)**2))
    
    # 计算相关系数
    r = numerator / denominator
    return r

# 示例数据
x = np.array([1, 2, 3, 4, 5])
y = np.array([5, 4, 3, 2, 1])

# 计算皮尔逊相关系数
correlation = pearson_correlation(x, y)
print(f"Pearson correlation coefficient: {correlation}")

可能遇到的问题及解决方法

数据异常值：异常值会影响计算结果。可以通过数据清洗或使用鲁棒性更强的统计方法来解决。
样本量不足：小样本可能导致统计结果不稳定。可以考虑增加样本量或使用交叉验证等方法。
非线性关系：皮尔逊相关系数只能衡量线性关系。如果数据存在非线性关系，可以考虑使用斯皮尔曼秩相关系数等其他方法。

通过上述方法和注意事项，可以高效且准确地计算数组间的皮尔逊相关系数。

仅对数组的1列高效计算皮尔逊相关系数

、、

我有一个形状为~(700,36000)的数组，它只想计算特定列(相对于所有其他列)的皮尔逊相关系数，但要计算数千次。我已经尝试了很多方法，但似乎没有一种方法是如此高效： import numpy corr_column = df_corr.iloc[:, column_index] 这当然会计算整个相关矩阵，并且在我的机器上需要大约12秒；这是一个问题

浏览 16提问于2020-05-04得票数 1

回答已采纳

1回答

C/Java/C++中任何关于互相关函数的指针

我正在做一个项目，它需要实现像互相关这样的功能。如果有任何开源API/库存在，有人能帮我吗？

浏览 1提问于2012-05-04得票数 1

4回答

计算皮尔逊相关性

、、、

我试着计算两个变量的皮尔逊相关系数。这些变量用于确定邮政编码的数量与距离范围之间是否存在关系。所以我想看看邮政编码的数量是否随着距离范围的变化而增加/减少。我将有一个列表，它将统计距离范围内的邮政编码的数量，另一个列表将具有实际的范围。可以有一个包含距离范围的列表吗？或者更好的是有一个像这样的50,100,500,1000的列表，其中

浏览 2提问于2012-11-30得票数 11

回答已采纳

2回答

有什么节省内存的方法来计算两个稀疏矩阵的Pearson相关系数？

、

我要计算它们之间的皮尔逊相关系数(相当于scipy.stats.pearsonr)。有办法吗？

浏览 0提问于2018-10-13得票数 1

回答已采纳

1回答

Numpy相关混淆

、、

我想计算两个数组之间的相关性。为此，我想使用NumPy。我想要的是一个介于-1和1之间的数字来表示相关性，1表示数组是正相关的，-1表示数组是负相关的。我怎么知道这个号码？

浏览 3提问于2015-04-13得票数 1

回答已采纳

3回答

皮尔逊系数是衡量变量间相依性的好指标吗？

、、、

一旦我被问到如何计算两个时间序列之间的相关性。由于我是数据科学新手，我回答说：“我只计算皮尔逊相关系数”。这不是一个好的答案，因为如下图所示，两个变量之间的依赖性可能不是线性的，Pearson系数可以接近$0(抛物线，圆圈)。我见过Kaggle上的人总是从相关矩阵开始，并丢弃不相关的数据。我的问题是:皮尔逊系数总是衡量变量之间相关性的一个很好的指标，我们应该一直依

浏览 0提问于2018-05-30得票数 4

回答已采纳

3回答

皮尔逊相关性及其意义

我有一个6行14列的数据帧。我通过以下方法计算皮尔逊相关性：data1 <- read.csv("test.csv") pearson_coef <- cor(data1[sapply(data1, is.numeric)]) 我得到了正确的相关系数。现在我想要得到相关性的显着性水平。此外，我想知道是否有可能得到一个具有皮尔逊相关系数和相关显著性水

浏览 3提问于2016-01-19得票数 0

2回答

我想对当前在Spark DataFrame中的数据运行Spearman关联。目前，只有皮尔逊相关性计算可用于对DataFrame中的列进行操作。似乎我可以使用Spark的MLlib进行Spearman关联，但我需要将两个RDDDouble传递给该函数。根据当前模式，我要比较的列是双精度的。有没有一种方法可以选择我想要的列，并使其成为双精度数组，以便我可以使用MLlib相关函数来获得Spearman相关系数？

浏览 1提问于2015-08-25得票数 1

3回答

K均值聚类算法

、、、、

我想对一组10个数据点执行k均值聚类分析，每个数据点都有一个由4个数值组成的数组。我使用皮尔逊相关系数作为距离度量。我完成了k均值聚类算法的前两步，它们是：现在我需要帮助理解算法中的第三步：其中X，在这种情况下是一个4维向量，n是集群中数据点的数量。假设下面的数据，我该

浏览 2提问于2013-03-25得票数 2

回答已采纳

1回答

RFECV不会为相同的数据返回相同的要素

、

我的响应变量y是绝对的(生存，没有生存)。b)这是否意味着解决方案不稳定？虽然对StratifiedKFold使用相同的种子应该可以解决这个问题，但这是否意味着我需要重新考虑整个方法？例如，

浏览 144提问于2015-08-07得票数 1

1回答

R函数来找出3个变量中哪一个与另一个值相关性最大？

、、、

我正在进行一项研究，分析说话者的产出，并测量他们的平均F2值。我需要的是一个R函数，它允许我找到这些F2值与其他3个变量的关系，如果有，那么哪个变量是最重要的。有没有特殊的技术或R函数/测试可以用来解决这个问题？我考虑过使用ANOVA或T-Test，但不确定这是否能满足我的需求。

浏览 27提问于2019-09-17得票数 0

2回答

职位排名的相关性如何？

、、

我是数据科学的新手。我试图了解如何将应用程序在应用程序商店中的位置(例如1-10 )与反向链接的数量联系起来，例如#1 =250个链接，#8 =50个链接，以及Python中的应用商店列表页面。我设法把这两行完全联系起来，这显然给了我一个毫无意义的数字。谁能给我指明正确的方向，让我填补这个知识空白。我不完全确定这一术语是否正确，因此谷歌搜索是不可能的。

浏览 0提问于2016-03-23得票数 0

回答已采纳

1回答

计算R中随机网络的r平方值

、、

然而，我找不到一个函数来计算图形的R平方(皮尔逊相关系数)值。例如，如果我使用igraph包中的函数erdos renyi来制作我的网络我该如何计算它的R平方值呢？

浏览 0提问于2018-05-20得票数 1

2回答

如何利用Julia计算p-值的皮尔逊相关系数？

我正在寻求用Julia语言计算皮尔逊相关系数与p值的帮助。Python中类似的函数是scipy.stats.pearson。下面的Julia函数只给出了相关性。感谢您对p-value部分的帮助/提示。

浏览 19提问于2018-11-17得票数 5

1回答

proc corr与proc corr nomiss的区别

su mi 2 ;run; run; 3 4 2 3 proc corr的输出为-1.0 . . 1.0proc corr成对删除缺少的值。p

浏览 0提问于2020-06-14得票数 0

2回答

如何在JavaScript中计算r平方值

、、、

我正在使用图表中的趋势线。我需要在它中显示R平方值，就像在带有趋势线的excel图表中显示的那样。我遇到了许多链接，但找不到确切的答案。因此，请指导我一步一步的程序或任何链接，以实现这一点。谢谢

浏览 6提问于2015-10-06得票数 0

回答已采纳

1回答

在0.05的显着性水平上进行双边显着性检验，以检验相关性是否等于0。

、、

我请求帮助在0.05的显着性水平上进行双边显着性检验，以检验相关性是否等于0。这是我拥有的数据集，以下是皮尔逊相关系数和sys12与whr的Spearman相关系数以及sys12与bmiB的相关系数估计的结果。) cor.test(dat$bmiB, bp, method = "spearman") 然而，在此之后，我不知道如何<em

浏览 7提问于2022-09-10得票数 -2

2回答

Scipy:皮尔逊相关性总是返回1

、、、、

我使用Python库scipy来计算两个浮点数组的皮尔逊相关性。系数的返回值始终为1.0，即使数组不同。2.34644428]我以这种方式调用例程：r_row的值始终为

浏览 1提问于2013-04-17得票数 11

回答已采纳

1回答

R中的引导程序包简单帮助

、、

如果我想使用R的boot包中的boot()函数来计算两个向量之间的皮尔逊相关系数的重要性，我应该这样做：其中re1是这两个观测向量的两列矩阵？我似乎不能正确理解这一点，因为这些向量的cor是0.8，但是上面的函数将-0.2作为t0返回。

浏览 4提问于2011-10-20得票数 5

回答已采纳

1回答

Mahout重新编码器实现

我想将两个项目之间的所有PearsonItemSimilarity值除以50除以它们所分享的殴打次数。框架获得两个游戏之间的殴打次数。可以有人将我链接到(或举例)一个重获者的示例实现？。我假设大多数皮尔逊相似点的计算都是基于少量的殴打(多数情况下是1或2次)。这将导致两场比赛彼此之间的皮尔逊相关系数为1，事实上，如果存在更多的殴打事件，情况

浏览 0提问于2011-08-19得票数 1

回答已采纳

点击加载更多