R中用于数据帧中列的特定相关性的pairs.panels函数_将函数应用于R中数据帧中每一行的特定列_R:数据帧列表中特定列的类 - 腾讯云开发者社区

、、

我有一个数据框(屏幕截图所附)，这是由数字和非数字列组成。我想对整个数据帧进行相关分析，并得到相关矩阵。但是，当我这样做时，我只能得到数值列的相关结果。有没有办法让R自动用数字替换因子列，并在整体上进行相关性分析那件事？

浏览 1提问于2015-01-08得票数 2

1回答

由于方差为0而具有NA值的cor函数

初学者R用户在这里。我使用cor函数来获取数据帧的两列之间的Kendal的tau-b秩相关系数。这类列的示例如下： A B 1 1 1 2 1 3 当我使用cor(d,method="kendall")时结果是A和B之间的相关性是NA，不是应该是0吗？如果不是，有没有一种方法可以使用cor函数中的参数将这个NA结果替换为0？

浏览 15提问于2019-09-22得票数 4

回答已采纳

2回答

对数据帧中的多个组运行pearson相关性测试

我想在R中计算多组数据帧的皮尔逊相关性。数据帧中有一列包含1962-2007年，我想运行p.c.。每年的CO2排放量和国内生产总值(数据框中的另外两列)之间的关系。谢谢你的建议！

浏览 10提问于2021-05-17得票数 0

2回答

使用for循环在df中选择列之间的相关性

、、、

我有一个有8列的数据帧(df)。我想使用一个for循环来计算一组列的皮尔逊相关性，方法如下： cor1=cor(df[,1], df[,2]) cor2=cor(df[,3], df[,4]) 诸若此类。做这件事最好的方法是什么？

浏览 0提问于2012-05-11得票数 1

1回答

我希望能够分别绘制两个数据帧，并依次配对每个列(但不是所有列对所有列)。数据格式在大小和列标题上是相同的，但值不同。因此，数据格式是这样的： df_X = A B C 0 1 1 1 1 2 2 2 ... df_Y = A B C 0 3 3 3 1 4 4 4 ... 目前，我可以通过使用带有两个头列的合并的dataframe开始，在子图上手动完成此操作： df_merge = col A B C X Y X Y X Y 0 1 3 1

浏览 9提问于2022-08-30得票数 1

2回答

Pandas将一个列与多个列关联按列的范围分组

、、、

假设我有一个类似于下面的数据帧(实际数据帧有数百万个观测值)，我如何获得信号列和返回列列表之间的相关性，然后按Signal_Up列进行分组？我尝试了pandas corrwith函数，但它没有给出signal_up列的相关分组 df[['Net_return_at_t_plus1', 'Net_return_at_t_plus5', 'Net_return_at_t_plus10']].corrwith(df['Signal_Up'])) 我正在尝试寻找signal列和由signal_up列的不同值分组的

浏览 46提问于2020-03-20得票数 0

回答已采纳

2回答

人工pearson相关系数r

、、

您将如何创建一个函数来手动计算r中的pearson相关性。我知道有一个名为cor的本机函数，但是如果我想将下面的公式应用于数据帧中的每一个列组合，我将如何做呢？我希望我知道怎么做，但我相信它需要很多for-循环、嵌套的for-循环等来实现，而且我还没有那么强的编程能力。我希望有人能试着让像我这样的新手学到东西。谢谢示例： set.seed(1) DF = data.frame(V1 = rnorm(10), V2=rnorm(10), V3=rnorm(10), V4=rnorm(10)) # V1 V2 V3 V4 # V1 1.0

浏览 0提问于2016-04-19得票数 2

回答已采纳

2回答

有没有使用循环更新一系列数据帧的简单方法？

、、

我正在寻找一种方法来遍历R中的一系列数据帧，以便重组它们，为推动它们通过多个线性回归模型做准备。以下是基本结构。假设你有3个数据帧： StateList <- c(AL, AR, AZ) 其中每个状态表示不同的数据帧(具有不同记录计数的相同列)。我想要将所有3个数据帧从原始形式的列重组到ETL版本，在ETL版本中，我只以不同的顺序选择某些列，然后是原始格式。我可以通过运行以下命令轻松完成此操作： AL <- AL[var5,var3,var2] AR <- AR[var5,var3,var2] AZ <- AZ[var5,var3,var2] 有没有什么简单的方法可以

浏览 1提问于2020-05-28得票数 0

1回答

将一个变量与r中的多个变量关联

、

我需要将一个基因与47,000个其他基因关联起来，才能找到10条最佳的相关曲线。通常，我的数据框在第一列有基因名称，在下一列有患者数据，基因名称在第一行。我需要转置数据帧来进行相关性测试吗？如果我转置，它是有效的，但我相信有一种更简单的方法。有人能帮帮我吗？ pancreas_final <- read_delim("path", delim = "\t") pancreas_final_t <- t(pancreas_final[,-1]) pancreas_final_t <- as.data.frame(pancreas_fin

浏览 1提问于2019-11-19得票数 0

1回答

如何在小鼠多次填充后生成相关矩阵

、、、

我正在使用mice包来创建多个补偿。我想创建一个相关矩阵(以及相关系数的p值矩阵。我使用miceadds::micombine.cor来做这件事。但这给出了一个数据帧，其中变量首先是to列，然后是包含r、p、t值等的多个列。我正在寻找一种方法来将这个数据帧转换成一个“好的旧”矩阵，其中x和y之间的相关系数位于x，y位置，以及一个具有p值的矩阵。有谁有简单的方法来做到这一点吗？下面是一些要重现的代码： data <- mtcars mt.mis <- prodNA(mtcars, noNA = 0.1) imputed <-mice(iris.mis, m = 5

浏览 13提问于2021-02-02得票数 0

1回答

在行关联后对列进行排序

、

我有一个包含两行或更多行和42列的pandas数据帧。通过对其进行转置和绘制，我得到了各行的轮廓。 df.T.plot() 我希望对列进行排序，这样首先是列，其中行是强相关的(相似的配置文件，值的方向相同)，然后是列，其中的行具有弱相关性(相反的配置文件，值的方向相反)。我可以对列运行集群算法，但集群并不是我想要的。我认为一种解决方案是在点到线性回归线的距离之后进行排序？？

浏览 1提问于2017-03-14得票数 0

1回答

具有匹配标头的两个数据帧列之间的相关性

、、

我有两个来自excels的数据帧，如下所示。第一个数据帧有一个多索引头。我试图根据货币(即KRW，THB，USD，INR)查找数据帧中的每一列与相应数据帧之间的相关性。目前，我正在执行一个循环来遍历每一列，在找到相关性之前按索引和相应的头进行匹配。 for stock_name in index_data.columns.get_level_values(0): stock_prices = index_data.xs(stock_name, level=0, axis=1) stock_prices = stock_prices.dropna() fx

浏览 22提问于2019-05-03得票数 1

回答已采纳

3回答

通过聚合数据帧的列来计算相关性

、、、、

我有以下数据框： y <- data.frame(group = letters[1:5], a = rnorm(5) , b = rnorm(5), c = rnorm(5), d = rnorm(5) ) 如何获得一个数据帧，为我提供每一行的列a，b和c，d之间的相关性？类似于：sapply(y, function(x) {cor(x[2:3],x[4:5])}) 谢谢你，S

浏览 2提问于2012-01-13得票数 2

回答已采纳

1回答

使用python查找两个数据帧的相关性

、

我正在处理一个数据集，在对两列执行了分组操作之后，我最终得到了具有最大数据点数量的两个存储桶。对于这两个存储桶，我创建了两个独立的数据帧，它们的形状不同(列数相同，行数不同)，以便进行比较。我需要知道我可以使用哪种转换来执行可能的两个数据帧的关联。我该怎么做呢？任何其他用于比较数据帧的建议都是值得赞赏的。

浏览 1提问于2018-10-11得票数 0

1回答

DataFrame中相邻列之间的皮尔逊相关性

、、、、

假设我有一个10列的数据帧。现在我想快速计算每一列和它的下一列之间的关系。所以第一列和第二列的皮尔逊r，第二和第三列的皮尔逊r，第三和第四列的皮尔逊r等等。有没有一种快捷的方法可以让我做到这一点？谢谢!

浏览 46提问于2020-04-15得票数 0

1回答

通过数学运算组合来自spark数据帧的行/列

、、、

我有两个spark数据帧(A和B)，大小分别为a x m和b x m，包含浮点值。此外，每个数据帧都有一个列'ID'，这是一个字符串标识符。A和B具有完全相同的ID集(即包含关于同一组客户的信息)。我想通过一些函数把一列A和一列B结合起来。更具体地说，我想构建一个标量积A的列和B的列，并根据ID对列进行排序。更具体地说，我想计算A和B的列之间的相关性。在所有列对上执行此操作将与矩阵乘法相同: A_transposed x B。然而，目前我只对一小部分列对的相关性感兴趣。我脑海中有两种方法，但我很难实现它们。(而且根本不知道这两者是否可行或可取。) (1)获取每个数据帧的感兴

浏览 1提问于2015-05-05得票数 2

1回答

使用wheen函数遍历dataframe python/pandas

、、

我有一个函数，它在一个数据帧中使用两列： def create_time(var, var1): if var == "Helår": y = var1+'Q4' else: if var == 'Halvår': y = var1+'Q2' else: y = var1+'Q'+str(var)[0:1] return y 现在我想遍历我的数据帧，使用函数创

浏览 0提问于2013-10-16得票数 1

1回答

如何更改函数中的数据帧列表中的列名？

、、

我知道“如何在数据帧列表中更改名称”的答案已经被多次回答了。但是，我试图生成一个函数，该函数可以将任何列表作为参数，并更改列表中所有数据帧的所有列名。我正在处理大量的.csv文件，所有这些文件都有相同的3个列名。我将分组导入文件，如下所示： # Get a group of drying data data files, remove 1st column files <- list.files('Mang_Run1', pattern = '*.csv', full = TRUE) mr1 <- lapply(files, read.csv, sk

浏览 2提问于2017-02-22得票数 3

3回答

如何将熊猫中的有序分类列关联起来？

、、、、

我有一个包含非数字列CatColumn的DataFrame df。 A B CatColumn 0 381.1396 7.343921 Medium 1 481.3268 6.786945 Medium 2 263.3766 7.628746 High 3 177.2400 5.225647 Medium-High 我希望将CatColumn包含在与数据帧中其他列的相关性分析中。我尝试过DataFrame.corr，但它在相关性分析中不包括具有标称值的列。

浏览 2提问于2017-12-20得票数 23

回答已采纳

1回答

如何在r中的列表中跨数据帧选择列

、、、

在确信使用list管理R中的多个数据帧是最佳实践之后，我决定将具有相同列名的所有数据帧放入列表中。样本清单： #create sample df df_1 <- data.frame(item = c("a", "b", "c"), measure = c(1,2,3) ) df_2 <- data.frame(item = c("x", "y", "z"), meas

浏览 3提问于2022-03-30得票数 0

回答已采纳

1回答

如何选择sparkR数据框的列值？

、、

我创建了一个sparkR数据帧，伙计们 +----+-------+ | age| name| +----+-------+ |20.0|Michael| |30.0| Andy| |19.0| Justin| +----+-------+ 如何选择"age“列的第一个值。在R语言中，我们可以通过people$age[1]来实现，它给出了20.0的结果。我们如何在sparkR数据帧中做同样的事情。蒂娅，阿伦

浏览 0提问于2015-07-22得票数 2

1回答

R将for循环的输出写入数据帧的新列

、

我编写这段代码是为了遍历现有的数据帧(blatt2)。我想创建一个新的数据帧(blatt3)，在其中写入for循环的输出。循环可以工作，但会将所有结果写入同一列。我希望当Q增加1时，数据帧中应该有一个新的列。最后，我在blatt2和blatt3中得到了相同的列。代码如下： blatt3 <- data.frame() for(q in 1:ncol(blatt2)) { for(i in seq(1, 790, 3)){ r <- c(blatt2[i,q], blatt2[i+1,q], blatt2[i+2,q]) blatt3<- rbind(bl

浏览 1提问于2017-10-31得票数 0

2回答

在pandas数据帧中使用数学符号命名列

、、

我想将我的参数的单位添加到每个参数旁边，作为我的数据框架中的列的名称。我还需要对一些列名使用统计符号，比如μ和σ2。我根据python中的数学符号r"$...$尝试了下面的代码，但它不适用于dataframe： P[r"Infiltration rate ($1/\h^-1$)"]=r['ACH_Base'] 为了给入渗速率参数(1/h^-1)个单位。在我的代码中，我已经创建了一个新的数据帧" P“，并且我正在将"r”数据帧中的ACH_Base列添加到P中。如何添加数学符号来命名数据帧中的列？谢谢！！

浏览 0提问于2018-04-09得票数 1

1回答

过滤单列数据帧

、

我正在尝试过滤只有一列的数据帧。这将返回一个向量，如下所示： single.c <- data.frame(col1=c(1,2,3,4,5), row.names=C("r1","r2","r3","r4","r5")) single.c[single.c$col1 > 2,] [1] 3 4 5 我真正想要的是像多列数据帧一样返回的数据： multi.c <- data.frame(col1=c(1,2,3,4,5), col2=c(1,2,3,4,5), row.names=c("

浏览 1提问于2012-08-23得票数 8

回答已采纳

1回答

用户输入的值是函数的一部分，以更改数据框列中的值吗？

在前面的代码中，我让用户输入两个名为PosCtrl和NegCtrl的值。我想在应用于dataframe中的列的函数中使用这些值。我有一个包含两列number和cell_value的数据帧(RawStacked)。我想把这个RawStacked数据帧转换成另一个数据帧(NormStacked)，在这个数据帧中，cell_value列中的值使用用户输入的值进行标准化。归一化方程为： x - NegCtrl ------------------- x 100 PosCtrl - NegCtrl 我试过这个： NormStacked = RawStacked.apply(lambda x

浏览 12提问于2021-01-05得票数 0

1回答

如何将从方法获得的结果列添加到现有的数据帧中？

、、

我得到交换令牌的数据帧，如下所示： Exchange=df[df["marketSegment"]=="Exchange"] Exchange 我想在上面的数据框中添加一列，以显示每个令牌的价格。通过下面的方法，我可以得到每个令牌的价格： san.get( "prices/huobi-token", from_date="2018-06-01", to_date="2018-06-05", interval="1d" ) 谁能告诉我如何定义一个函

浏览 20提问于2019-08-19得票数 1

回答已采纳

2回答

只关联同名列。

、、

我有两个巨大的数据格式，它们的列和行名相同，但值不同。现在，我想计算两个数据文件之间的每一列的相关性，但只计算同名的列。 yyyymm `10000` `10001` `10002` `10003` `10004` `10005` `10006` <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 198601 NA NA NA NA NA NA

浏览 1提问于2021-05-30得票数 0

回答已采纳

1回答

包含时间序列的统计汇总数据

、、

我想我对“熊猫”中的group by的理解有误。我已经将我的Dataframe索引为'Date‘，框架有一个名为'Year’的列，其中2014-10-10是2014年，依此类推。重点是我想要将第一年的数据与第二年的数据关联起来，以此类推。我应该如何处理索引值的列表？我的输入是： Date Adj Close Year 2013-Dec-31 0.16 2013 2013-Dec-30 0.13 2013 2013-Dec-27 0.11 2013 2012-Dec-31 0.1 2012 2012-Dec-28 0.1 2012

浏览 0提问于2014-10-14得票数 0

1回答

(皮尔逊)相关循环遍历数据帧

、、、、

我有一个具有159个obs和27个变量的数据帧，我想将第4列(变量4)中的所有159个obs与以下每一列(变量)关联，即，将列4与5关联，然后将列4与6关联，依此类推……我一直在尝试创建一个循环，但没有成功，因为我是R的初学者，所以它比我想象的要难。我想让它变得更简单的原因是，我需要对更多的数据帧做同样的事情，如果我有一个函数可以做到这一点，它将变得更容易和更少的时间。因此，如果有人能帮助我，那就太好了。 df <- ZEB1_23genes # CHANGE ZEB1_23genes for df (dataframe) for (i in colnames(df)){

浏览 15提问于2020-03-22得票数 0

1回答

R中的可视化方法用于检测标签与响应的相关性

、、

问题在R中有哪些较好的绘图方法来检查目标变量与各种解释变量之间的关系？特别是，我正在寻找可视化技术，它比传统的散点图矩阵具有更多的变量。详细信息散射图矩阵是可视化变量间成对关系的一个很好的工具。例如，使用R中的swiss数据集，我们可以很容易地绘制一个矩阵的散射图。 library(datasets) data(swiss) plot(swiss[1:3]) 产额 📷 我对这样的情况很感兴趣，我想预测一些反应，比如使用一些解释变量组合的Fertility。我想仔细检查每个解释变量如何与Fertility相关。如果我的数据中有很多列，那么使用plot(swiss)就会变得很麻烦。例如，下

浏览 0提问于2021-04-22得票数 1

回答已采纳

2回答

数据帧行值相关性

、、

如何根据以下df找到Product_Code列中每个行值的以下字段之间的相关性？我已经尝试过df.corr()，但没有成功。实际的数据帧是2mm+行。示例数据框如下： df = pd.DataFrame{ ‘Company_Numb’: ["125", "137", "129"], 'Year' : [“2016”, ”2017”, “2018”],'Product_Code' : [“Batteries”, “Clothes”, “Tablet”],'Sales_Success_Code' :

浏览 21提问于2019-03-27得票数 0

1回答

如何为R中列表中的所有数据帧重新排序？

、、

我已经有了一个数据帧列表(mylist)，并且需要切换列表中所有数据帧的第一列和第二列。列表中的测试数据帧 [reads] [phylum] 1 phylum1 2 phylum2 3 phylum3 变成..。 [phylum] [reads] phylum1 1 phylum2 2 phylum3 3 我知道我需要使用，但不知道要为FUN=输入什么 mylist <- lapply(mylist, FUN = mylist[ ,c("phylum", "reads")])

浏览 2提问于2017-08-10得票数 3

回答已采纳

2回答

如何检查两个变量之间的水平相关性？

、

我有两列，A和B，在一个名为X的数据框中。A有38层，B有3层。如何检查A的38个级别和B的3个级别之间的相关性？谢谢。

浏览 1提问于2017-11-20得票数 0

2回答

自动确定要从python中的相关矩阵中删除哪个特征

、、、

我想自动化我的代码，因为我想让它遍历几个文件。每次我想要创建一个相关矩阵，以确定一个阈值，如果2列之间的相关性高于阈值-从它们中选择一个并将其从数据帧中删除。我想继续这个过程，直到我没有任何高于阈值的相关性。有没有人知道如何处理这个问题？谢谢!

浏览 2提问于2020-01-16得票数 1

1回答

将两个数据帧与部分匹配值进行比较

我对r非常陌生，但我想知道是否有可能比较两种数据帧。例如，我有一个数据框架，其中一个列包含值"peanut_butter“、"applesauce”、“苹果汁”，另一个数据帧列包含值"apple“、”花生“。是否有一种方法可以对第一列中的每一行进行检查，如果有部分匹配(花生酱包含花生酱)，它会创建一个新的列，其名称是匹配的？

浏览 11提问于2022-02-19得票数 1

1回答

在reduce阶段使用R函数

、、

我试图找到数据帧的相关系数，并完美地工作。使用cor()从数据帧中查找相关系数是否存在问题，或者实现此代码对于大数据是否很好？ cc = function(input, output = NULL){ cc.map = function(., v) { data <- v[-1,] data[,1:length(data)] = lapply(data[,1:length(data)], as.numeric) keyval("korelasi",data) } cc.reduc

浏览 13提问于2019-09-30得票数 0

2回答

R:如何用另一个数据帧的随机抽样行替换数据帧中的有条件行？

我需要有条件地将数据帧(x)中的行替换为从另一个数据帧(Y)中随机选择的行，两个数据帧之间的行的.Some是相同的，因此数据帧x将包含具有重复信息的行。要实现这一点，我需要什么样的基本r代码？我在r中编写了一个基于代理的模型，其中行可以看作属于代理的属性的向量，列是属性类型。为了让代理将它们的属性从一个数据帧(填充)发送到另一个数据帧(填充)，但是要根据条件学习规则。这些规则必须是:有条件地替换数据帧x中第n行中的值，如果第10列中的属性值为1或更多，并且如果概率s大于0到1之间随机选择的数字。概率s本身是一个可调整的参数，可以将任何值从0取到1。我在下面的代码中尝试过IF函数，但我对r还

浏览 3提问于2019-03-25得票数 0

回答已采纳

1回答

比较列和行上的两个pandas数据帧

、、、、

我有两个熊猫数据帧，它们看起来几乎相同，但其中存储的信息不同。我的问题是，在执行某些分析之前，如何比较两个数据帧以确保列和行匹配，并获得两者之间的第三个数据帧之间的相关性。 df1 (50x14492)： TYPE GENRE1 GENRE2 Name1 .0945 .0845 Name2 .9074 Nan Name3 1 0 和df2 (50x14492)： TYPE GENRE1 GENRE2 Name1 .9045 .895 Name2 .074 1 Name3 .5 .045 希望得到尚未获得的结果df3 (50x14492)： TYPE GENRE1

浏览 11提问于2018-08-22得票数 0

回答已采纳

1回答

在NA中删除数据帧中的离群值

、、

我有一个包含多个NAs的数据帧。我需要找出离群值并用中值替换它们，但是如果有缺失值，我现在的所有函数都不起作用。我用R，你知道吗？提前感谢

浏览 0提问于2016-10-19得票数 0

3回答

存储多个数据帧的有效方法？

、、、

我正在将几个文件一起读取到一个数据帧列表中，以便能够将函数应用到合并的数据中，但是当我有太多的数据帧时，我遇到内存分配问题(“错误:r不能分配内存”)。例如，读取的数据帧的可变数目，让我们现在假设3个数据帧： x = data.frame(A=rnorm(100), B=rnorm(200)) y = data.frame(A=rnorm(30), B=rnorm(300)) z = data.frame(A=rnorm(20), B=rnorm(600)) listDF <- list(x,y,z) 错误:r不能分配内存我想知道这里是否有人知道，例如，一个数组还是一个包含多列的单个

浏览 3提问于2016-08-29得票数 2

回答已采纳

4回答

为什么在R中使用attach()是不可取的，我应该使用什么？

、、

让我们假设我们有一个包含列job和income的数据帧x。引用帧中的数据通常需要对job列中的数据使用x$job命令，对income列中的数据使用x$income命令。但是，当引用相同的数据时，使用命令attach(x)允许去掉数据框的名称和$符号。因此，在R代码中，x$job变为job，x$income变为income。问题是R中的许多专家建议在R中编码时不要使用attach()命令。这其中的主要原因是什么？应该使用什么来代替？

浏览 2提问于2012-04-08得票数 59

回答已采纳

1回答

机器学习相关性

、、

我有一个数据集，我清理了它，现在在运行机器学习模型之前，我正在查看相关性。我读过关于人的r相关性的文章： Intermediate|0.0|，，，，，，，，，，，，，，，，，，我不明白几件事：独立列和独立列如果我有很强的相关性，它是好的还是坏的？Doe的强相关性(不是完美的1.0)意味着这两列基本上是相同的？，如果相关性是好的\坏的，我应该删除两列中的一列吗？独立列和依赖列如果我有很强的相关性，它是好的还是坏的？，如果相关性是好的\坏的，我应该删除独立列吗？

浏览 2提问于2021-05-06得票数 1

2回答

从Excel中将float作为字符串导入时出现问题。添加精度不正确

、、

使用openxlsx read.xlsx从多类列导入数据帧。所需的结果是将所有值作为字符串导入，与它们在Excel中的表示完全相同。但是，一些小数表示为非常长的浮点数。示例数据只是一个Excel文件，其中的一列包含以下行： abc123, 556.1, 556.12, 556.123, 556.1234, 556.12345 require(openxlsx) df <- read.xlsx('testnumbers.xlsx', ) 使用上面的R代码读取文件会导致df包含以下字符串 values: abc123, 556.1, 556.12,

浏览 0提问于2018-06-25得票数 1

1回答

在dataframe中的两列上运行stats.pearsonr时遇到错误

、、

我尝试在我的数据帧中的两列(高度和冲刺速度)上运行stats.pearsonr。问题是： i.)如果我在不删除height列中NaN值的情况下运行stats.pearsonr，结果是(nan,1) (二)如果我首先删除高度中的NaN值，则错误消息是这两列具有不同的形状 fifa_dataset['Height'].dropna(inplace=True) iii.)如果我丢弃了整个数据框的na值，我就会丢失太多的数据(例如，我的数据框中的一些球员拥有球队、价值、转会价格等的NaN值)。 fifa_dataset['Height'].dropna(inplac

浏览 24提问于2019-02-12得票数 0

1回答

如何将包含值0...n的列添加到spark中现有的dataframe？

、、

我有很多列的现有数据帧。如何添加一个包含0...n-1值的列(其中n是我的数据帧中的行数。当我没有任何数据帧时，我可以这样做，比如：spark.range(...).toDF。

浏览 10提问于2021-02-15得票数 0

回答已采纳

2回答

两个数据帧之间的逐行关联

、、、

我有2个数据帧，每个数据帧有5列和100行。 id price1 price2 price3 price4 price5 1 11.22 25.33 66.47 53.76 77.42 2 33.56 33.77 44.77 34.55 57.42 ... 基本上，我希望获得相应行的相关性 for(i in 1:100){ cor(df1[i, 1:5], df2[i, 1:5]) } 但不使用for循环。我假设有一些

浏览 0提问于2012-02-04得票数 16

回答已采纳

1回答

R数据类型到MonetDB数据类型

、、

我试图使用MonetDB驱动程序使用DBI::dbWriteTable()将数据帧插入到MonetDBLite中，并且必须调整MonetDB表和R数据帧中的列类型。我想知道是否存在从R到MonetDB的数据类型映射。例如，我知道(或者假设)R中的character向量应该映射到CHAR(n), CHARACTER(n), VARCHAR(n), CHARACTER VARYING(n), TEXT, CLOB, CHARACTER LARGE OBJECT的MonetDB列，或者STRING和back。这方面有任何官方文件吗？谷歌没有打开任何东西。

浏览 3提问于2018-01-06得票数 1

回答已采纳

1回答

查找两个不同数据帧中的两列之间的相关性

、、

我有两个数据帧，它们都有一个ID列，并且每个ID都有一个带有时间戳的日期列和一个值列。现在，我想通过这种方式找到每个数据集中的值之间的相关性:数据集1包含患上特定疾病的人的所有值，而在数据集2中有未患此病的人的值。现在，使用corr函数： corr = df1['val'].corr(df2['val']) 我的结果是0.1472，并且非常非常低(太多)，这意味着它们之间没有任何相关性。我做错了什么吗？如何计算相关性？有没有办法找到一个值(也许是一条线)，在这个值之后，人们就会患上这种疾病？我想尝试使用机器学习技术(SVMs)，但首先最好能有我之前解释过

浏览 0提问于2019-07-29得票数 0

1回答

R中决策树的参与方程序包不支持字符数据类型？

、

如果我的数据框中有一列的数据类型是character，我会得到下面的错误。 > library("party") > r2 <- ctree(Sepal.Length ~ .,data=df) Error in trafo(data = data, numeric_trafo = numeric_trafo, factor_trafo = factor_trafo, : data class character is not supported > plot(r2) > sapply(df,class) Sepal.Length

浏览 1提问于2015-04-15得票数 4