我在寻找一种方法来有效地将一个函数应用到data.table的每一行。让我们看一下下面的数据表:
library(data.table)
library(stringr)
x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
假设我想按空格拆分b
列的每个元素(因此原始数据中的每一行都有两行),并连接生成的数据表。对于上面的示例,我需要以下结果:
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
如果列a
只有唯一值,则可以执行以下操作
x[, list(str_split(b, ' ')[[1]]), by = a]
下面的方法几乎可以工作(除非原始数据表中有一些相同的行),但是当x
有很多列并将列b复制到结果中时就很难看了,我希望避免这种情况。
> x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
a b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19
解决这个问题的最有效和最常用的方法是什么?
发布于 2013-03-28 21:51:01
这样如何:
x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
给出注释的通用解决方案:
x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]
发布于 2016-09-12 03:59:12
x[, .(a,strsplit(b,' ')), by=1:nrow(x)]
by=nrow(x)
是一种按组强制每组一行的简单方法
发布于 2016-10-30 11:29:47
x[, .(a,strsplit(b,' ')), by = .I]
看起来更有自尊
https://stackoverflow.com/questions/15673662
复制相似问题