我有一个数据帧(df;见下文),其中包含时间序列上的位置(多年,位置是每小时给定的)。数据中有很多空位,虽然我计划运行一个模型来估计一些缺失的位置,但我需要删除超过10小时的空位,因为我无法估计这段时间(即保持10小时或更短的空位)。
数据集没有这些日期时间间隔的NA值。因此,我必须首先为指定日期范围内缺失的每个日期时间创建NA行(数据是从每年的9月1日到12月1日),然后删除NA间隔大于10小时的行。
我将不得不使用不同的时间阈值和多个数据集来运行此分析。因此,是否可以仅为特定的时间间隔大小添加nA值(为10小时或更短的时间间隔添加NAs ),而不是通过两个步骤完成此过程?这将消除消除超过10小时的时间间隔的需要。
以下是一些示例数据:
table <- "id date time lat lon
1 A 2011-10-03 05:00:00 35.02957 -53.36053
2 A 2011-10-03 06:00:00 35.11430 -53.39990
3 A 2011-10-03 09:00:00 35.14563 -53.40357
4 A 2011-10-03 10:00:00 36.22431 -53.57891
5 A 2011-10-03 23:00:00 36.60950 -53.56792
6 B 2012-11-08 05:00:00 35.84570 -53.36992
7 B 2012-11-08 07:00:00 35.99980 -53.36084
8 B 2012-11-08 10:00:00 36.45001 -53.37093
9 B 2012-11-08 23:00:00 36.56789 -53.38654
10 B 2012-11-09 05:00:00 36.62456 -53.50901"
#Create a dataframe with above table
df <- read.table(text=table, header = TRUE)
df
下面是预期输出:
table2 <- "id date time lat lon
1 A 2011-10-03 05:00:00 35.02957 -53.36053
2 A 2011-10-03 06:00:00 35.11430 -53.39990
3 A 2011-10-03 07:00:00 NA NA
4 A 2011-10-03 08:00:00 NA NA
5 A 2011-10-03 09:00:00 35.14563 -53.40357
6 A 2011-10-03 10:00:00 36.22431 -53.57891
7 A 2011-10-03 23:00:00 36.60950 -53.56792
8 B 2012-11-08 05:00:00 35.84570 -53.36992
9 B 2011-11-08 06:00:00 NA NA
10 B 2012-11-08 07:00:00 35.99980 -53.36084
11 B 2011-11-08 08:00:00 NA NA
12 B 2011-11-08 09:00:00 NA NA
13 B 2012-11-08 10:00:00 36.45001 -53.37093
14 B 2012-11-08 23:00:00 36.56789 -53.38654
15 B 2011-11-09 00:00:00 NA NA
16 B 2011-11-09 01:00:00 NA NA
17 B 2011-11-09 02:00:00 NA NA
18 B 2011-11-09 03:00:00 NA NA
19 B 2011-11-09 04:00:00 NA NA
20 B 2012-11-09 05:00:00 36.62456 -53.50901"
#Create a dataframe with the above table
expected <- read.table(text=table2, header = TRUE)
expected
编辑:
我应该补充说,这段代码还需要考虑到存在不同的ID,并且应该分别考虑每个ID的时间间隔,而不是所有ID之间的时间间隔(例如,不应该在第5行和第6行之间添加时间间隔,因为这是两个不同ID之间的时间间隔)。
编辑2:
Ronak Shah的答案是有效的。然而,有时我也必须使用分钟来运行这段代码。例如,时间间隔是每30分钟,我希望保持1小时/60分钟的间隔(两个30分钟的间隔),但不希望间隔超过这个间隔。有没有可能将Ronak Shah的回答改编成这样?
我尝试将单位更改为“分钟”,将>10改为">60“,并在第二行中保留”小时“,但这只是给我在间隔中的每一小时提供了安娜行,而我真的希望在每30分钟间隔中使用安娜,除非在该小时中有两个以上的30分钟间隔。我也尝试过其他迭代,当我真的想要每30分钟才迭代一次,并且间隔不超过一小时时,我会得到很多NAs。
df %>%
unite(datetime, date, time, sep = ' ') %>%
mutate(datetime = lubridate::ymd_hms(datetime)) %>%
group_by(id) %>%
group_by(grp = cumsum(difftime(datetime, lag(datetime, default = first(datetime)), units = 'mins') > 60), .add = TRUE) %>%
complete(datetime = seq(min(datetime), max(datetime), by = 'hour')) %>%
ungroup %>%
select(-grp)
发布于 2021-09-22 13:36:16
这里有一种使用dplyr
和tidyr
的方法。
组合date
和time
列为每个id
创建datetime创建一个grp
列,该列为10小时内的时间值创建一个新组。使用complete
在每个组中的最短时间和最长时间之间创建缺少的每小时序列。
library(dplyr)
library(tidyr)
df %>%
unite(datetime, date, time, sep = ' ') %>%
mutate(datetime = lubridate::ymd_hms(datetime)) %>%
group_by(id) %>%
group_by(grp = cumsum(difftime(datetime, lag(datetime, default = first(datetime)), units = 'hours') > 10), .add = TRUE) %>%
complete(datetime = seq(min(datetime), max(datetime), by = 'hour')) %>%
ungroup %>%
select(-grp)
# id datetime lat lon
# <chr> <dttm> <dbl> <dbl>
# 1 A 2011-10-03 05:00:00 35.0 -53.4
# 2 A 2011-10-03 06:00:00 35.1 -53.4
# 3 A 2011-10-03 07:00:00 NA NA
# 4 A 2011-10-03 08:00:00 NA NA
# 5 A 2011-10-03 09:00:00 35.1 -53.4
# 6 A 2011-10-03 10:00:00 36.2 -53.6
# 7 A 2011-10-03 23:00:00 36.6 -53.6
# 8 B 2012-11-08 05:00:00 35.8 -53.4
# 9 B 2012-11-08 06:00:00 NA NA
#10 B 2012-11-08 07:00:00 36.0 -53.4
#11 B 2012-11-08 08:00:00 NA NA
#12 B 2012-11-08 09:00:00 NA NA
#13 B 2012-11-08 10:00:00 36.5 -53.4
#14 B 2012-11-08 23:00:00 36.6 -53.4
#15 B 2012-11-09 00:00:00 NA NA
#16 B 2012-11-09 01:00:00 NA NA
#17 B 2012-11-09 02:00:00 NA NA
#18 B 2012-11-09 03:00:00 NA NA
#19 B 2012-11-09 04:00:00 NA NA
#20 B 2012-11-09 05:00:00 36.6 -53.5
https://stackoverflow.com/questions/69285145
复制相似问题