我有一个dataframe,在其中一个专栏中,我有相当多缺失的数据,我试图计算这些值,但是由于有太多的数据丢失,所以做得并不好。这个专栏大约每5年给出一次值,通常我只是删除它,但我想看看是否能从中找到一些东西。我想要做的是继承所提供的价值,填充NA,直到一个新的价值出现。例如,在我提供的数据中,我正在寻找这样的输出;
df
Country_Name year gdp_per_capita freshwaster_production_pc
Albania 1997 717.3800 4.543622e-07 #use this value
Albania
我正在尝试找出是否有可能使用geom_line连接缺少的值。例如,在下面的链接中,在facet F中缺少时间3的值。在这种情况下,我想要一条线来连接时间2和时间4。有没有办法做到这一点?
我有一个累积值的数据框,如下所示:
head(cumulative)
individual series Time Value
1 A x 1 -1.008821
2 A x 2 -2.273712
3 A x 3 -3.430610
4 A x 4
我的一般问题是,我有一个数据格式,其中列对应于特性值。在dataframe中也有一个日期列。每个功能列都可能缺少NaN值。我想用一些填充逻辑填充列,例如"fill_mean“或”填充零“。
但是,我不想仅仅将填充逻辑应用于整个列,因为如果前面的值之一是NaN,我不希望这个特定的NaN的平均值被后来的平均值所污染,因为模型应该不了解这个平均值。本质上,这是一个常见的问题,就是不向您的模型泄漏关于未来的信息--特别是在试图填充我的时间序列时。
无论如何,我已经将我的问题简化为几行代码。这是我对上述一般问题的简化尝试:
#assume ts_values is a time series w