使用.corr获取两列之间的相关性_如何获取两列之间的相关性？_获取两列DF之间所有行的相关性 - 腾讯云开发者社区

python、pandas、correlation

当我使用pandas.DataFrame.corr()创建相关矩阵时，我发现关联矩阵(corr_matrix)有37列，DataFrame(all_data)有80列。在我看来，这两栏应该是一样的。换句话说，相关矩阵应该具有形状(80x80)。但这并没有发生。在创建相关矩阵之前，我已经估算了所有丢失的数据。那么，为什么两列不相等呢？代码 corr_matrix = all_data.corr(method="kendall").abs() print("Missing value descending:\n{}\n".format(all_data.isnul

浏览 2提问于2021-11-13得票数 3

回答已采纳

2回答

在5天内找到2个变量之间的相关性

python

这是我的数据集：我是数据分析新手，找出这两个事件之间的相关性(Inc_cnt)的最佳方法是什么？ inc_cnt_bfr是之前的事件，inc_cnt_aft是之后的事件。appid和chg_number成对出现。以第1行为例，事件提升之前为20，事件提升为70。我遇到过最近的邻居(n_neighbour，和metrics=‘相关性’)，当我查看文档时，很难理解。在我的训练中，我介绍了numpy，pandas和基本的ml算法。为了实现我所学到的知识，但需要一些关于找到相关系数或对此类数据集进行假设检验的最佳方法的建议，我已经实现了两种方法，即@rajith和@Ricardo的建议

浏览 4提问于2020-04-23得票数 0

1回答

当我在Pandas中使用df.corr时，我的一些列丢失了

python、pandas、correlation

这是我的代码： import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt data = pd.read_csv('death_regression2.csv') data3 = data.replace(r'\s+', np.nan, regex = True) plt.figure(figsize=(90,90)) corr = data3.corr() print(np.shape(list(corr))) prin

浏览 1提问于2019-03-04得票数 11

回答已采纳

2回答

Pandas:每次迭代都迭代两列

python、pandas

有谁知道如何在每次迭代中使用两列来迭代pandas Dataframe？假设我有 a b c d 5.1 3.5 1.4 0.2 4.9 3.0 1.4 0.2 4.7 3.2 1.3 0.2 4.6 3.1 1.5 0.2 5.0 3.6 1.4

浏览 9提问于2019-07-15得票数 2

回答已采纳

1回答

为什么corr()只给出int、uint或float类型的结果，而不是对象类型的结果？

python、object、types、correlation

为了澄清，我在木星笔记本中使用了Python 我想提高我在数据科学的技能，所以我接手了一个上周结束的项目。在这个项目中，我的目的是建立一个逻辑回归。我做了我的数据准备等等，我做了一个特性选择，最后，为了改进我的模型，我做了corr()并得到了相关的最后一个特性。但我认为这不是做这项工作的最佳方法。我认为corr()需要在特性选择之前做出。因此，我试图在特性选择之前制作corr()来查看，但遇到了一个问题。让我们看看第一次是如何做到的(毕竟这是我的数据准备，等等)：我用我的分类栏做了假人 df1=pd.get_dummies(df[[cat_cols]]) 我把我的数量列

浏览 0提问于2019-04-05得票数 0

2回答

pandas数据框中两列与.corr()的相关系数

python、pandas、correlation

我想在将列设为布尔值后，计算pandas数据框中两列之间的相关系数。最初的table有两列:一列是包含两个处理组之一的Group列，另一列是Age组。这两列是我要计算相关系数的列。我尝试了.corr()方法，如下所示： table.corr(method='pearson') 但请把这个还给我：我已经粘贴了下面的前25行布尔table。我不知道我是否遗漏了参数，也不知道如何解释这个结果。奇怪的是，它也是1。提前感谢！ Group Age 0 1 50 1 1 59 2 1 22 3 1 48 4

浏览 0提问于2018-03-19得票数 7

回答已采纳

1回答

获取两列DF之间所有行的相关性

pandas、dataframe

非常感谢大家的帮助！谢谢我需要行的相关性，我知道如何获得两列之间的相关性，如下所示。如何获得新列中各行的相关系数？corr (11，84 2，81)等 df['Bananas'].corr(df['Weight']) df = pd.DataFrame({'Bananas': [11, 2, 0.5], 'Weight': [84, 81, 78]})

浏览 49提问于2021-10-06得票数 0

1回答

比较列和行上的两个pandas数据帧

python、pandas、dataframe、scipy、correlation

我有两个熊猫数据帧，它们看起来几乎相同，但其中存储的信息不同。我的问题是，在执行某些分析之前，如何比较两个数据帧以确保列和行匹配，并获得两者之间的第三个数据帧之间的相关性。 df1 (50x14492)： TYPE GENRE1 GENRE2 Name1 .0945 .0845 Name2 .9074 Nan Name3 1 0 和df2 (50x14492)： TYPE GENRE1 GENRE2 Name1 .9045 .895 Name2 .074 1 Name3 .5 .045 希望得到尚未获得的结果df3 (50x14492)： TYPE GENRE1

浏览 11提问于2018-08-22得票数 0

回答已采纳

1回答

如何获取两列之间的相关性？

python、pandas

浏览 24提问于2021-05-18得票数 3

1回答

为什么熊猫会删除栏？

pandas、correlation

我正在做一个基本的相关性分析，但出于某种原因，熊猫corr()正在删除列，但不确定原因。 import pandas as pd data = pd.read_csv("data.csv") print(len(data.columns)) print(len(data.corr().columns)) 输出： 100 64

浏览 0提问于2019-10-30得票数 4

回答已采纳

3回答

R中矩阵各列间相关性的计算

r、correlation

我在R中有以下矩阵mat： x y z rowA -1 1 2 rowB -1 -2 -1 rowC 2 1 -1 如何计算矩阵的各个列(例如，corr(x, y)、corr(y, z)、corr(x, z))之间的相关性，而不是将列分离成向量？

浏览 5提问于2019-11-05得票数 0

回答已采纳

2回答

TypeError: corr()缺少1个必需的位置参数：“other”

python、pandas、numpy

我是python的新手，遇到麻烦了。我应该计算皮尔逊相关系数，但我错了。我唯一能想到的就是python需要不同的语法。 import pandas import numpy as np data = pandas.read_csv('One_imortant_table.csv', index_col='Id') corr1 = data['Numb'].corr(method='pearson', min_periods=1) print(corr1) TypeError： ---> corr1 = data['

浏览 1提问于2017-06-06得票数 1

1回答

为什么我的Matlab代码不是随机生成的协方差矩阵的正定矩阵？

matlab、covariance-matrix

这是我的密码。我得到一个错误，当我使用chol(V)时，V不是正定的。我认为在建筑上，它必须是正定的。知道出什么问题了吗？ % I want 10000 draws of a 5x1 multivariate normal distribution N =5; T = 10000; % randomly generate standard deviations sigma = 1 + .1*rand(N,1); % randomly generate correlations which are between [-1,1] rho = -1+2*rand(nchoosek(N,2),1)

浏览 6提问于2022-04-19得票数 0

2回答

在matlab中，xcorr和cross corr有什么区别？

matlab

我是信号处理方面的新手。我想要检查两个不同位置的风速数据之间的关系。我不知道我必须使用哪个matlab命令，它在matlab中是'xcorr‘还是'cross corr’？

浏览 9提问于2016-04-15得票数 1

1回答

在数据帧的两列之间运行基本关联

python、python-2.7、pandas

我正在尝试使用指定列中的数据从pandas数据帧生成相关矩阵以下是我的csv数据： col0,col1,col2,col3,col4 122468.9071,1417464.203,3546600,151804924,10839476 14691.1139,170036.0407,103847,19208604,2365065 下面是我创建的两个数据帧： df1 = pd.read_csv('c:/temp/test_1.csv', usecols=[0]) df2 = pd.read_csv('c:/temp/test_1.csv', usecols=[1]

浏览 0提问于2016-01-30得票数 4

回答已采纳

1回答

创建相关熊猫系列

python、pandas、statistics

如果您有一个包含两个国家在一年内的每日温度的两列数据，那么使用熊猫corr计算这些列的相关性是很容易的，例如： Country A Country B 10 20 11 20 10 22 9 23 df.corr() 是否有一种方法，以某种方式产生一个熊猫系列的基础上，最初的列将有一个特定的相关性？换句话说，如果我只有一个国家的温度清单，我想生成第二个与第一个列表有0.8相关的列表，例如： Country A Country B 10 11 10 9

浏览 3提问于2017-03-20得票数 2

回答已采纳

1回答

如何在Python中显示全相关矩阵？

python、pandas、spyder、correlation

我在Python Spyder中使用df.corr()命令计算数据集的相关矩阵。但是，输出仅显示前两列和后两列的矩阵值。我应该使用什么命令才能获得整个矩阵？我正在使用pandas包来计算给定数据集的相关矩阵。我用来计算相关矩阵的代码是： correlation_matrix = df.corr() print(correlation_matrix) 这样做的结果是显示了前两列和最后两列的相关矩阵值。我想要显示整个矩阵。

浏览 2提问于2019-01-23得票数 1

4回答

计算特征与目标变量之间的相关性

python、numpy、dataframe、correlation

计算我的特性和目标变量之间相关性的最佳解决方案是什么?？我的数据有1000行40000列..。例： df = pd.DataFrame([[1, 2, 4 ,6], [1, 3, 4, 7], [4, 6, 8, 12], [5, 3, 2 ,10]], columns=['Feature1', 'Feature2','Feature3','Target']) 这段代码工作得很好，但是我的数据太长了.我只需要关联矩阵的最后一列:与目标的相关性(而不是两两特征相关)。 corr_matrix=df.corr() corr_matr

浏览 0提问于2018-09-25得票数 11

回答已采纳

2回答

Presto -如何在一个查询中的所有列之间执行关联

sql、hive、presto、amazon-athena

我有一张表格，格式如下： A B C D 7 7 2 12 2 2 3 4 2 2 2 4 2 2 2 3 5 5 2 7 我希望使用内置相关函数( corr(y，x)→double)计算每个列之间的相关性。我可以运行所有列，每次使用：select corr(A,B) from table执行corr计算，但如果可能的话，我希望减少访问presto并在一个查询中运行它的次数。是否有可能因此获得超过某一阈值的列名，或者至少在一个查询中获得所有可能组合之间的相关分数？谢谢。

浏览 6提问于2019-12-08得票数 0

回答已采纳

1回答

查找两个不同数据帧中的两列之间的相关性

python、pandas、correlation

我有两个数据帧，它们都有一个ID列，并且每个ID都有一个带有时间戳的日期列和一个值列。现在，我想通过这种方式找到每个数据集中的值之间的相关性:数据集1包含患上特定疾病的人的所有值，而在数据集2中有未患此病的人的值。现在，使用corr函数： corr = df1['val'].corr(df2['val']) 我的结果是0.1472，并且非常非常低(太多)，这意味着它们之间没有任何相关性。我做错了什么吗？如何计算相关性？有没有办法找到一个值(也许是一条线)，在这个值之后，人们就会患上这种疾病？我想尝试使用机器学习技术(SVMs)，但首先最好能有我之前解释过

浏览 0提问于2019-07-29得票数 0

1回答

统计模型之间p值的不同线性回归和pandas df.corr()函数

python、pandas、regression、correlation、pearson-correlation

我正在开发一个房价预测数据集。它有13个特征，我使用的是多元线性回归模型。当我检查特征和目标值的相关性时，它显示了df.corr()方法和Summary()函数奇怪的结果。对于较少的特征，p相关系数较低。但是，如果我在回归后使用summary()函数，这些特征具有不同的p值。相关系数最低的特征不具有最高的p值。或者由这两个不同函数获得的相关系数和p值没有相似性/相关性。可能出了什么问题？对于相关系数 correlation_matrix = BostonHousing_df.corr().round(2) 对于p值 X=BostonHousing_df.iloc[:,:-1].value

浏览 57提问于2019-02-13得票数 0

回答已采纳

1回答

高效计算相关系数

matlab、correlation

我有一个巨大的维度数据。一个大小为(50,12000)的A和一个大小为(50,1000)的B。我想计算A的每一列与B的每一列的相关性。我尝试在matlab中使用corr([A B])，但是它消耗了大量的内存并且死机了。如何快速有效地做到这一点？

浏览 0提问于2013-12-31得票数 0

1回答

使用"corrgram“绘制矩阵中特定列之间的相关性

假设我有矩阵M = (A| B |C)，其中A，B和C是M中的列。在R中使用corrgram包的corrgram函数，我如何绘制A与B和C之间的相关性？换句话说，我对绘制三列之间的所有成对相关性不感兴趣，只对：corr(A,B)和corr(A,C)感兴趣

浏览 2提问于2014-04-14得票数 1

1回答

计算两矩阵行间的相关系数

python、correlation

给定Python中的两个矩阵A和B，我希望找到两个矩阵中的行之间的相关性。矩阵的长度为5*7。我希望找到A和B中每一行之间的相关性，以及平均相关性： A = data_All_Features_rating1000_topk_nr ; B = data_All_Features_rating1000_leastk_nr ; corr_1 = corrcoeff(A[0,:],B[0,:]]) corr_2 = corrcoeff(A[0,:],B[1,:]]) corr_3 = corrcoeff(A[0,:],B[2,:]]) corr_4 = corrcoeff(A[0,:],B[

浏览 0提问于2016-03-23得票数 2

回答已采纳

3回答

如何将熊猫中的有序分类列关联起来？

python、pandas、scikit-learn、correlation、categorical-data

我有一个包含非数字列CatColumn的DataFrame df。 A B CatColumn 0 381.1396 7.343921 Medium 1 481.3268 6.786945 Medium 2 263.3766 7.628746 High 3 177.2400 5.225647 Medium-High 我希望将CatColumn包含在与数据帧中其他列的相关性分析中。我尝试过DataFrame.corr，但它在相关性分析中不包括具有标称值的列。

浏览 2提问于2017-12-20得票数 23

回答已采纳

2回答

如何调整方程的系数，使y与x_i之间具有较高的相关性？

math

给定一组变量，x的。我想找出这个方程的系数的值： y = a_1*x_1 +... +a_n*x_n + c 其中a_1,a_2,...,a_n都是未知的。从数据框架的角度考虑这一点，我想为数据中的每一行创建这个y的值。我的问题是:由于y, a_1...a_n和c都是未知的，有没有办法在a_1,...,a_n都大于0.7的情况下找到一组解corr(y,x_1), corr(y,x_2) .... corr(y,x_n)。为了简单起见，这里将相关性视为皮尔逊相关性。我知道不会有唯一的解决方案。但是我如何为a_1,...,a_n构建一组解决方案来满足这个条件呢？我花了一天的时间寻找这个想法，但

浏览 2提问于2016-02-05得票数 5

2回答

具有nan条目的两个数组的Python -交叉相关

python、numpy、correlation

我得到了两个数据数组，希望相互关联，得到两个数组之间的延迟长度(如果有)，然后在0到1之间进行规范化。 import numpy as np x = [0,1,1,1,2,0,0] y = [0,0,0,1,1,1,2] corr = np.correlate(a,b, 'full') norm = np.linalg.norm normalized = corr/(norm(a)*norm(b)) 返回： [0.0, 0.0, 0.29, 0.43, 0.57, 1.0, 0.57, 0.43, 0.29, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0] 问题

浏览 0提问于2018-10-10得票数 1

1回答

找出两个numpy矩阵有多相似

python、numpy、image-processing、scipy、scikit-image

我想知道两个numpy矩阵有多大不同。Matrix1和Matrix2可能非常相似，比如80%相同的值，只是发生了变化……我附加了两个相同数组的图像，这两个数组在右上角的值序列不同。 from skimage.util import compare_images #matrix1 & matrix2 are numpy arrays compare_images(matrix1, matrix2, method='diff') ? 给出了第一个比较，但是两个numpy矩阵呢，例如，其中一个左移了几列？ from scipy.signal import corre

浏览 131提问于2020-08-20得票数 2

2回答

理解两个不同大小矩阵的np.corrcoef输出

python、numpy、correlation

我想计算矩阵A的每一列向量与矩阵B的每一列向量之间的相关性。考虑： vectorsize = 777 A = np.random.rand(vectorsize, 64) B = np.random.rand(vectorsize, 36) corr = np.corrcoef(A, B, rowvar=False) 在这种情况下，np.corrcoef的输出将是一个100x100矩阵。这是什么意思？直觉上，我期望得到一个64x36矩阵。

浏览 7提问于2017-10-20得票数 3

回答已采纳

1回答

具有匹配标头的两个数据帧列之间的相关性

python、pandas、dataframe

我有两个来自excels的数据帧，如下所示。第一个数据帧有一个多索引头。我试图根据货币(即KRW，THB，USD，INR)查找数据帧中的每一列与相应数据帧之间的相关性。目前，我正在执行一个循环来遍历每一列，在找到相关性之前按索引和相应的头进行匹配。 for stock_name in index_data.columns.get_level_values(0): stock_prices = index_data.xs(stock_name, level=0, axis=1) stock_prices = stock_prices.dropna() fx

浏览 22提问于2019-05-03得票数 1

回答已采纳

1回答

熊猫斯皮尔曼关联奇怪吗？

pandas、correlation

这两个相关性有没有可能不同？ Pandas版本0.18.1 from pandas import Series a = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'Crystal Palace'] b = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'Man United'] c = ['Arsenal',

浏览 0提问于2017-01-21得票数 1

1回答

计算Pandas DataFrame列间相关性时的错误

python、pandas、dataframe

我试图使用一个while循环来遍历我的列，并计算一个固定列与其余列之间的相关性。 i = 1 while i < 51: feature = 'mean(f{0})-PR'.format(str(i)) feature_list.append(feature) corr = df['mean(f19)-PR'].corr(df[feature]) i += 1 这给了我一个错误： TypeError: unsupported operand type(s) for /: 'str' and 'int&

浏览 7提问于2022-06-05得票数 0

1回答

numpy.corrcoef()怀疑返回值

python-3.x、numpy、correlation、pearson-correlation

我需要两个矩阵X，Y之间的皮尔逊相关系数。如果我运行代码corr=numpy.corrcoef(X,Y)，我的输出是一个具有相关系数的矩阵。但是，我需要一个值来表示两个矩阵之间的相关性。我刚刚在这个kennytm的answer上看到，为了有一个值，我应该写numpy.corrcoef(X,Y)[1,0]。这个解决方案有效，但我不明白方括号中的数字是什么意思，以及为什么我将它们相加作为结果一个值。我将1和0解释为系数的极限，但是矩阵中的所有系数会发生什么呢？对它们进行哪种类型的运算才能获得单个值？如果我改变了方括号内的数字，例如[1,-1](correlation, anticorrel

浏览 78提问于2020-05-02得票数 2

回答已采纳

1回答

`df.corr()中出现的NaN值`

python、pandas

一般来说，我对熊猫和python都是新手。我的任务是匹配我们数据库中的一些产品。我是按照一个循序渐进的过程来编写here的。但我被一条说关联数据帧的指令卡住了。我在这里得到了NaN的值。前两张图片是我想要对其进行corr操作的相同数据帧。第三个是结果。我可以在这里得到一些指导吗？ datafreame_pic1： ? datafreame_pic2： ? result_of_df.corr()： ?

浏览 146提问于2021-08-02得票数 0

回答已采纳

1回答

切片板系列

python、pandas、slice

我有一个简单的数据文件： >>> df = pd.DataFrame(np.random.randint(0,5,(20, 2)), columns=['col1','col2']) >>> df['ind1'] = list('AAAAAABBBBCCCCCCCCCC') >>> df.set_index(['ind1'], inplace=True) >>> df col1 col2 ind1 A

浏览 4提问于2016-10-17得票数 3

回答已采纳

2回答

如何在MATLAB中用皮尔逊相关性替换缺失值

matlab、nan、pearson

我在MATLAB中使用'corr‘函数有问题， a = 1 4 3 2 2 3 3 2 3 2 3 2 4 1 3 2 >> corr(a) ans = 1 -1 NaN NaN -1 1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 当我手动计算时，缺少的值(NaN)是因为分母是零(0)。尽管如此，我们可以看到列3

浏览 6提问于2010-12-28得票数 0

1回答

为什么我的数字在R not范数中不匹配，多元t分布

r、distribution、correlation

我试着在Genz和Bretz之后为多元t分布的cdf算法编写程序，R中的参考包是was范数。当我测试我的功能时，我发现我的数字不匹配。在下面的示例中，从mvtnorm帮助调整后，多元t随机变量有独立的分量。所以积分应该是3个独立概率的乘积。 > lower <- -1 > upper <- 3 > df <- 4 > corr <- diag(3) > delta <- rep(0, 3) > pmvt(lower=lower, upper=upper, delta=delta, df=df, corr=corr) [1] 0

浏览 0提问于2011-01-01得票数 6

回答已采纳

4回答

PySpark计算相关性

python、apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

2回答

Python生成滚动窗口来计算相关性

python、pandas、numpy

我有一个很大的pandas数据帧(97165行和2列)，我想计算并保存每100行这些列之间的相关性，我想要如下所示：第一个相关性-->从0到100的行数--> corr = 0.265 第二个相关性-->从1到101的行数--> corr = 0.279 第三相关性-->第2行到第102行--> corr = 0.287 每个值都必须存储，并在绘图中显示，所以我必须将所有这些值保存在一个列表或类似的东西中。我一直在阅读与滚动窗口相关的pandas文档，但我什么也没能完成。我试图生成一个简单的循环来获得一些结果，但我遇到了内存问题，我尝试的代码是： lcl

浏览 0提问于2017-10-16得票数 4

1回答

从一维np.correlate的理解结果

python、numpy、signal-processing、cross-correlation

我试图用numpy.correlate来确定两个一维时间序列之间的相似性。我写了一个小的例子程序来了解更多关于互相关如何工作的知识，但是我并不完全理解相关输出的趋势。代码： import numpy as np import matplotlib.pyplot as plt #sample arrays to correlate arr_1 = np.arange(1, 101) #[1, 2, 3, ..... 100] arr_2 = np.concatenate([np.zeros(50), np.arange(50, 101)]) #[0, 0, ... 50, 51 ... 1

浏览 0提问于2019-06-10得票数 0

回答已采纳

1回答

RFECV或任何其他特征选择之前的数据准备

python、scikit-learn、feature-extraction、rfe、normalization

我正在尝试弄清楚在特征选择之前删除高度相关和负相关的特征是否明智。下面是我的代码的快照 def find_correlation(data, threshold=0.9, remove_negative=False): corr_mat = data.corr() if remove_negative: corr_mat = np.abs(corr_mat) corr_mat.loc[:, :] = np.tril(corr_mat, k=-1) already_in = set() re

浏览 38提问于2019-01-10得票数 0

2回答

Jupiter Python seaborn热图未显示所有相关性

python、heatmap、seaborn、correlation

我在相关性的热图上遇到了一些麻烦。它没有显示我感兴趣的所有列。这是我的代码： sns.set(style="white") # Compute the correlation matrix corr = data.corr() # Generate a mask for the upper triangle mask = np.zeros_like(corr, dtype=np.bool) mask[np.triu_indices_from(mask)] = True # Set up the matplotlib figure f, ax = plt.subplots(

浏览 0提问于2018-04-18得票数 4

1回答

使用R软件与来自MatLab的3D矩阵进行关联

r、matlab、matrix、correlation

我有两个3D (12x12x10)矩阵，它们是从CONN Software中的Functional Connectivity Analysis和.mat格式获得的。每个3D矩阵由12个感兴趣区域的10个独立矩阵组成。一个是考虑休息条件，另一个是任务条件。我想要比较在执行R中的两个3D矩阵之间的相关的FC中的差异，但我不知道如何让R理解我有一个3D矩阵！它混合在一个奇怪的2D矩阵中。使用以下代码： # Load connectivity matrix mat<-read.table("R/Matriz/neural", header = FALSE) View(mat) r

浏览 3提问于2018-04-25得票数 0

1回答

Matlab中随机序列相关的NAN算法

correlation、matlab

我想用Matlab产生两个不相关的信号，但我有奇怪的结果，可能是由于我的经验有限。我知道有一些函数rand和randn。如果我使用randn生成这2，则总是计算这2的相关性，并且它非常低(正如我所预期的)。 z1 = randn(1,1000); z2 = randn(1,1000); corr(z1,z2) % it returns a very low number as expected 如果我使用rand生成2(或两者兼用)，如下面所示，关联就是NAN。 z1 = rand(1,1000); z2 = rand(1,1000); corr(z1,z2) % it returns a

浏览 1提问于2013-12-16得票数 0

回答已采纳

1回答

矢量化Pandas中的序列与DataFrame列的相关性

python、pandas、dataframe、correlation、series

是否有可能以矢量化的方式计算级数与DataFrame中每一列的相关性？这适用于滚动相关和EWM相关，但对香草相关失败。例如： In [3]: series = pd.Series(pd.np.random.rand(12)) In [4]: frame = pd.DataFrame(pd.np.random.rand(12,4)) In [7]: pd.ewmcorr(series, frame, span=3) Out[7]: 0 1 2 3 0 NaN NaN NaN

浏览 3提问于2015-10-07得票数 2

回答已采纳

1回答

如何从第一列开始对DataFrame列进行排序？

python、pandas、sorting、dataframe、correlation

我按照行的最大值对df列进行了排序。 dff = centroids.reindex(df.sum().sort_values(ascending=False).index, axis=1) print(dff) 13 9 2 6 7 0 5 0 0.423586 0.472548 0.366301 0.423973 0.312807 0.476197 0.384652 1 0.639636 0.734712 0.503772 0.600164 0.41

浏览 38提问于2019-03-21得票数 0

回答已采纳

3回答

列列表之间的Pandas相关性X整个数据帧

python、pandas、data-visualization、data-science

我正在寻找有关Pandas .corr()方法的帮助。现在，我可以使用.corr()方法来计算每种可能的列组合的热图： corr = data.corr() sns.heatmap(corr) 在我23,000列的数据框上，它可能会在宇宙的热死亡附近终止。我还可以在值的子集之间进行更合理的关联 data2 = data[list_of_column_names] corr = data2.corr(method="pearson") sns.heatmap(corr) 这给了我一些我可以使用的东西--这是一个看起来像这样的例子：我想要做的是将包含20列的列表与整个数

浏览 5提问于2017-08-03得票数 2

回答已采纳

2回答

大范畴变量数据集的预处理

python、pandas、machine-learning、data-analysis、preprocessor

我试图找出这个问题的基本答案，但堆栈溢出似乎没有一个是最合适的。我有一个40列和55,000行的数据集。这些列中只有8列是数字的。其余的32个是绝对的，每个字符串都有值。现在，我希望对预测模型进行探索性数据分析，并且需要删除某些不相关的列，这些列与目标没有很高的相关性(变量用于预测)。但是，既然这32个变量都是绝对的，我能做些什么来了解它们与目标变量的相关性呢？我想尝试的是： LabelEncoding所有32列然后通过PCA运行一个维度缩减，然后创建一个预测模型。(如果我这样做，那么如何通过删除具有低corr()和目标的无关列来清理数据？) 一个热编码所有32列，并直接运行一个

浏览 0提问于2019-09-04得票数 0

回答已采纳

1回答

在列中查找与指定列相关程度最高的变量

python、pandas、correlation

正如标题所示，我有一个名为df的数据帧。给定一个变量(指定的df列)，我希望找到与该变量具有最高相关值的列。下面是我尝试过的方法： def highest_correlated(df, column): sol = -1 for col in df.columns: while col != column: corr = df[column].corr(df[col]) if corr>sol: sol = corr return sol 这样做的问题是它花费了太多的时间

浏览 0提问于2020-09-18得票数 1