我想知道是否有更快的方法使用data.table/dplyr来根据以前的值按组替换值。
假设我的原始数据表如下所示:
DT_orig <- data.table(name = c("A", "A", "A", "B", "B", "B"),
year = c("2001", "2002", "2003", "2001", "2002", "2003"),
treat = c(1,0,0, 0,0,1))
这看起来如下:
name year treat
1: A 2001 1
2: A 2002 0
3: A 2003 0
4: B 2001 0
5: B 2002 0
6: B 2003 1
在这里,对于每个人(姓名)和时间段(年份),都有一列(治疗),表示他们是否被分配了治疗。
我正在考虑另一种治疗方法,即一旦一个人得到治疗,他就会继续接受治疗。因此,修改后的数据表应该如下所示:
name year treat
1: A 2001 1
2: A 2002 1
3: A 2003 1
4: B 2001 0
5: B 2002 0
6: B 2003 1
注意,对于A人来说,2001年的治疗意味着他们在接下来的几年里也会受到“治疗”。
因为我有一个非常大的数据表,所以我想知道是否有一种非常快速的方法来修改它。
发布于 2020-01-19 20:20:05
也许我们可以使用cummax
(来自base R
)
DT_orig[, treat := cummax(treat), name]
DT_orig
# name year treat
#1: A 2001 1
#2: A 2002 1
#3: A 2003 1
#4: B 2001 0
#5: B 2002 0
#6: B 2003 1
或者用dplyr
也可以这样做
library(dplyr)
DT_orig %>%
group_by(name) %>%
mutate(treat = cummax(treat))
或者使用base R
DT_orig$treat <- with(DT_orig, ave(treat, name, FUN = cummax))
https://stackoverflow.com/questions/59814021
复制相似问题