我有一个大的数据集,我想简化,但我目前有一些麻烦的事情。下表显示了原产地目标组合。“计数”列,表示A到B的出现量。
From To count
A B 2
A C 1
C A 3
B C 1
我的问题是,例如A到C (1),实际上和C到A (3)是一样的。因为方向对我来说并不重要,只是A和C之间有联系,我想知道我怎么能简单地得到A到C (4)。
问题是我有一个400级的因子,所以我不能手动完成它。有什么dplyr或者类似的东西可以帮我解决这个问题吗?
这似乎是一个简单的问题,但我在这里很难找到堆栈溢出的解决方案。我有一个数据框架df,其中包含数据a和b列。我有一个复杂的函数(下面的简化示例),我想使用mapply应用于所有行。我遇到的问题是,我希望将n和n-1行的b作为函数的输入,而不是b。下面是一个例子
new.fun <- function( a, b ) { a * b }
a <- seq( from = 1, to = 10, by = 1 )
df <- data.frame( a , b = a * 10 )
mapply( new.fun, df$a, df$b )
除了用n
我有一个数据框,有两列
'V1' 'V2'
joe hi, my names is *joe*
anne i was talking to *jake* the other day...
steve *anne* should have the answer
steve *joe* and I will talk later
我想获取第一列中的姓名列表,并使用它在第二列中搜索它们。
(星号只是用来表示名称在长字符串中。)
我真正想说的是,对于第一列中的每一项,如果您也可以在第二列中找到它,那么打印该行。
我试过了
for (
我有一个有两列分隔字符串的数据框架:
df <- data.frame('a'=c('a, b, c, d', 'a, c', 'b, d'), 'b'=c('a, d', 'a', 'a, d'))
a b
1 a, b, c, d a, d
2 a, c a
3 b, d a, d
我想创建第三列,以包含与前两列相交的字符串,例如:
a b
我有一个颜色的数据框,我想找到一种方法来创建第三列。第三列应该由一种颜色组成,该颜色是其他两列的混合。我有一个示例数据框和一个我认为可以完成此任务的函数。它使用R的colorRampPalette()函数和purrr::map2()。但是,这将返回一个列出的列,该列在未列出时与数据帧中的第一列相同。
# Create a function for colors
x <- RColorBrewer::brewer.pal(11, 'Spectral')
spectral_col <- colorRampPalette(x)
# Apply this functi
我想要分组数据帧中的时间序列相关性。下面是一个示例数据集:
x <- cbind(expand.grid(type = letters[1:4], time = seq(1:4), kind = letters[5:8]), value = rnorm(64)) %>% arrange(type, time, kind)
它生成64行变量type、time、kind和value。
我想要按type分组的每个kind的值的时间序列相关性。将每个type和time组合看作是一个由4个值组成的有序向量。我按type和time分组,然后按kind排列,然后删除kind。
y <- x
我有一个包含大约1000列/参数的数据集,并希望在每个参数之间执行回归。因此,第1列中的数据将与所有其他999参数进行叠加,以进行线性回归等等。
这种方法的非优化版本如下:
loop <- c(1:ncol(Data))
for ( column in loop ){
# Fetch next data to be compared
nextColumn <- column + 1
# Fetch next column
while ( nextColumn <= ncol(Data) ){
# Analysis lo
实际的目标比这个要广泛得多,但在它的中间,我需要执行方程,其中运算符是数据框中的一个值。示例代码以所使用的df中的格式复制了三列。在这个例子df中,我想执行操作20+5,10-10和5*15。 # R code for sample df
a <- c(20,10,5)
b <- as.character(c("+","-","*"))
c <- c(5,10,15)
df <- data.frame(a,b,c)
我在R中运行一个带有样本外验证数据的randomForest模型:
predictions <- predict(rf, newdata = model_final, type = "prob")
显然在某个地方有一个新的因素水平,导致了这样的信息:
Error in predict.randomForest(rf, newdata = model_final, type = "prob") :
New factor levels not present in the training data
忽略所有特定于我的数据和模型的内容,有没有办法强迫pr
有没有什么模式匹配方法可以循环遍历R中的变量列表?
我很清楚如何使用索引,但到目前为止,我还没有在循环中的多个属性上找到索引。
我所拥有的是:
x <- c(1, 2, 3, 4)
y <- c(4, 3, 2, 1)
for (i in 1:length(x)) {
x[i]
y[i]
}
我想要有:
x <- c(1, 2, 3, 4)
y <- c(4, 3, 2, 1)
for ((xi, yi) in c(x, y)) {
xi
yi
}
致以问候!
我在R中有一些数据是以以下方式组织的(简化的示例):
x <- as.data.frame(cbind(c(1,2,3,4,5),c(6,7,8,9,10)))
这将创建一个两列数据格式("V1“和"V2")。我想要创建第三列和第四列("V3“和"V4"),它们都根据这两列中以前的条目调用不同的函数。V3基于一个不断附加向量的函数,而V4是一个简单的数学操作(几何平均)。到目前为止,通过指定新列和使用for()循环(例如使用简化函数),我能够获得所需的东西:
x <- x %>% mutate(V3 = 0, V4_0 = 0,