问保留上一年的行
EN

Stack Overflow用户

提问于 2018-05-30 00:47:13

回答 1查看 45关注 0票数 0

我只想试一试，因为我知道这里有一些聪明的人，他们可能有一个r -code。我不能自己编写代码。

所以我得到了一个数据集，其中包含2000-01和2008-12之间的名称和年份-月份。看起来像这样：

 Name      Date
 A         2000-01
 A         2000-02
 A          ...
 A         2008-12
 A         2000-01
 B         2000-01
 B          ...
 B         2008-12
 C         and so on..

对于my key列中的每个名称，可能每年都有一个值。这是我能要求的最好的了。不幸的是，有些年份在我的键列中没有值。在我的数据集中更进一步，只查看名称A：

因此，如果我在2000-2008年间不是每年都有1个观察值，并且我想从年份和月份中获得没有键列的值的行，则基于下一个观察值所在年份的月份。在此示例中：

2003-02有我的keycolumn的值，而2002-02没有，我想取回2002-02日期的行和名称A。简而言之：“根据下一年的键列保留前一年的行”

有没有什么简单的方法来编码呢？谢谢您:)

excel

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-30 08:24:10

没有直接和简单的方法来编写您所描述的代码，但肯定可以将问题分解为更简单的部分。问题的核心部分如下。给定具有非NA值的行的数据帧，例如

  year month
1 2002    12
2 2005    11
3 2006    01
4 2008    07

对于每一行，检查数据帧以查看上一年是否存在；如果存在，则返回该行，如果不存在，则返回包含上一年和同月的额外行。下面是要执行的函数可能是什么样子

check_ym <- function(y, m, dat) {
  if ((y - 1) %in% dat$year) {
    return(data.frame(Date = paste(y, m, sep = "-"), stringsAsFactors = FALSE))
  } else {
    return(data.frame(Date = paste(c(y - 1, y), c(m, m), sep = "-"), stringsAsFactors = FALSE))
  }
}

现在，让我们做一些假数据。

library(dplyr)
library(tidyr)
library(purrr)

# Simulate data
set.seed(123)
x <- data.frame(Date = paste(sample(2000:2008, 4),
                             sprintf("%02d", sample(1:12, 4, replace = TRUE)),
                             sep = "-"),
                KeyColumn = floor(runif(4, 1, 10)))
d <- data.frame(Date = paste(rep(2000:2008, each = 12),
                             sprintf("%02d", rep(1:12, times = 9)),
                             sep = "-")) %>%
  left_join(x)

标识非NA行：

dd <- d %>%
  na.omit() %>%
  separate(Date, into = c("year", "month")) %>%
  mutate(year = as.numeric(year))
dd
#   year month KeyColumn
# 1 2002    12         5
# 2 2005    11         5
# 3 2006    01         5
# 4 2008    07         9

然后，我们运行上面的函数，遍历year和month列。这给了我们

out <- map2_df(dd$year, dd$month, .f = check_ym, dat = dd)
out
#      Date
# 1 2001-12
# 2 2002-12
# 3 2004-11
# 4 2005-11
# 5 2006-01
# 6 2007-07
# 7 2008-07

最后，我们将其与原始数据连接起来：

inner_join(out, d)
# Joining, by = "Date"
#      Date KeyColumn
# 1 2001-12        NA
# 2 2002-12         5
# 3 2004-11        NA
# 4 2005-11         5
# 5 2006-01         5
# 6 2007-07        NA
# 7 2008-07         9

这只是一个Name。我们也可以对许多Name这样做。首先创建一些假数据：

# Simulate data
set.seed(123)
d <- map_df(setNames(1:3, LETTERS[1:3]), function(...) {
  x <- data.frame(Date = paste(sample(2000:2008, 4),
                               sprintf("%02d", sample(1:12, 4, replace = TRUE)),
                               sep = "-"),
                  KeyColumn = floor(runif(4, 1, 10)))
  data.frame(Date = paste(rep(2000:2008, each = 12),
                               sprintf("%02d", rep(1:12, times = 9)),
                               sep = "-")) %>%
    left_join(x)
}, .id = "Name")
dd <- d %>%
  na.omit() %>%
  separate(Date, into = c("year", "month")) %>%
  mutate(year = as.numeric(year))
dd
#    Name year month KeyColumn
# 1     A 2002    12         5
# 2     A 2005    11         5
# 3     A 2006    01         5
# 4     A 2008    07         9
# 5     B 2000    04         6
# 6     B 2004    01         7
# 7     B 2005    12         9
# 8     B 2006    03         9
# 9     B 2000    04         6
# 10    C 2003    12         1
# 11    C 2005    04         7
# 12    C 2006    11         5
# 13    C 2008    02         8

现在，使用split通过Name将数据帧拆分为三个数据帧；对于每个子数据帧，我们应用check_ym()，然后将结果组合在一起，并将其与原始数据连接：

lapply(split(dd, dd$Name), function(dat) {
  map2_df(dat$year, dat$month, .f = check_ym, dat = dat)
}) %>%
  bind_rows(.id = "Name") %>%
  inner_join(d)
# Joining, by = c("Name", "Date")
#    Name    Date KeyColumn
# 1     A 2001-12        NA
# 2     A 2002-12         5
# 3     A 2004-11        NA
# 4     A 2005-11         5
# 5     A 2006-01         5
# 6     A 2007-07        NA
# 7     A 2008-07         9
# 8     B 2000-04         6
# 9     B 2003-01        NA
# 10    B 2004-01         7
# 11    B 2005-12         9
# 12    B 2006-03         9
# 13    C 2002-12        NA
# 14    C 2003-12         1
# 15    C 2004-04        NA
# 16    C 2005-04         7
# 17    C 2006-11         5
# 18    C 2007-02        NA
# 19    C 2008-02         8

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50589282

复制

相似问题

问保留上一年的行
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问保留上一年的行EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问保留上一年的行
EN