文章/答案/技术大牛

发布

社区首页 >问答首页 >我想将数据分成两个数据集:一个训练数据集和一个测试数据集。(R中的时间序列分析)

问我想将数据分成两个数据集:一个训练数据集和一个测试数据集。(R中的时间序列分析)
EN

Stack Overflow用户

提问于 2020-03-28 09:01:45

回答 1查看 67关注 0票数 0

我想将数据分成两个数据集:一个训练数据集和一个测试数据集。目的是使用训练数据集来预测2005年1月每天的NOx浓度。因此，训练数据集应该包括前296个观察值(直到2004年的最后一个观察值)。测试数据集应包括2005年1月的31个每日观察值。

该数据集包含来自嵌入在空气质量化学多传感器设备中的几个金属氧化物化学传感器阵列的390个每日响应实例。该装置位于意大利一座城市内道路高度的严重污染区域的田野上。数据记录于2004年3月至2005年4月(一年)。提供了总氮氧化物(NOx)和二氧化氮(NO2)的地面真实日平均浓度，以及有关天气状况的信息。缺少的值被标记为值-200。

包含391个观测值的数据集，从2004年3月11日到2005年4月4日

time-series

forecast

回答 1

Stack Overflow用户

发布于 2020-03-28 15:15:02

以下是我的建议，我包含了一个可重现的数据集示例(变量具有随机值)：

set.seed(123)
library(data.table)
N = length(seq(from = 
                 as.Date("2004/03/11"),
               to = as.Date("2005/04/04"),
               by = "days"))
df <- data.table("Date" = seq(from = 
                               as.Date("2004/03/11"),
                             to = as.Date("2005/04/04"),
                             by = "days"),
                "NOx" = rnorm(N),
                "NO2" = rnorm(N),
                "Temp" = rnorm(N),
                'RH' = rnorm(N),
                'AH' = rnorm(N))

head(df)

下面是数据集的外观：

 Date        NOx         NO2       Temp
1: 2004-03-11 -0.1639410  1.48433728 -0.7166330
2: 2004-03-12  0.8985008  1.12176857  0.2304389
3: 2004-03-13  0.6891673 -1.39986065 -0.3868637
4: 2004-03-14 -0.8190232 -1.47609804  0.5087085
5: 2004-03-15  0.3200668  0.05810584 -0.8093966
6: 2004-03-16 -0.4670752 -0.95297664  0.4632159
           RH          AH
1: -0.2789256  0.93052499
2: -1.2931294 -0.58877664
3:  1.1668008  1.10508756
4: -1.4853740  0.99288191
5: -1.4771204 -0.04978804
6: -0.5826404  1.06793716

然后，我根据日期将数据拆分成训练和测试：

df_train <- df[Date<="2004/12/31"]
df_test <- df[Date>="2005/01/01" & 
                Date <= "2005/01/31"]

所以我忽略了2005年1月31号之后的所有值。希望能有所帮助

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60896091

复制

相似问题

问我想将数据分成两个数据集:一个训练数据集和一个测试数据集。(R中的时间序列分析)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我想将数据分成两个数据集:一个训练数据集和一个测试数据集。(R中的时间序列分析)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我想将数据分成两个数据集:一个训练数据集和一个测试数据集。(R中的时间序列分析)
EN