我目前正在做一个项目,我需要一些帮助。我想用一个统计模型来预测航班延误的长度。该数据集不包含航班延误的长度,但它可以从实际起飞时间和预定起飞时间计算出来,我知道实际起飞时间-预定起飞时间会给出航班延误,这是因变量。我正在努力使解释(独立)变量以一种有用的形式进行回归分析-主要问题是当您从csv文件中读取表时,前两列的时间格式。我已经将数据文件附加到问题中,因为我不太确定如何附加我的文件,我对这个编码的东西是新的。任何帮助都将不胜感激。xx
https://drive.google.com/file/d/11BXmJCB5UGEIRmVkM-yxPb_dHeD2CgXa/view?usp=sharing
编辑:
首先,感谢您的帮助
好的,我将尝试在这个话题上问一些更精确的问题:
因此,在使用以下命令导入文件后:
1)
Delays <- read.table("FlightDelaysSM.csv",header =T,sep=",") 2)我遇到的主要问题是将列的调度时间和深度时间转换成可以进行算术计算的格式
3)我尝试了下面的方法
Delays[,1] - Delays[,2] 在出现明显问题的情况下,例如800 (上午8点)- 756 (上午7.56点)= 44而不是4分钟
4)使用@kerry Jackson的帮助(谢谢,你太棒了x)我试过了
DepartureTime <- strptime(formatC(Delays$deptime, width = 4, format = "d", flag = "0", %H%M)
ScheduleTime <- strptime(formatC(Delays$schedtime, width = 4, format = "d", flag = "0", %H%M)
DelayTime = DepartureTime - ScheduleTime这些值也是以秒为单位的,我希望差是以分钟为单位,我该怎么做呢?
5)然后我做了以下操作:
DelayData <- data.frame(ScheduleTime, DepartureTime, DelayTime, Delays[, 4:7])What I attain after making the DelayData
如图所示,我在名为DelayTime的列中有秒单位,而日期在ScheduleTime和DepartureTime列中,我不希望这样做。我能得到一些关于如何纠正这个问题的建议吗?
发布于 2019-03-27 02:30:21
创建一个名为flight_delay的新列
install.packages('tidyverse')
library(tidyverse)
your_data <- your_data %>%
mutate(flight_delay=deptime-schedtime)现在,创建一个线性回归模型,通过每个其他变量预测flight_delay:
mod <- lm(flight_delay ~ ., data=your_data)要优化模型,请使用step函数:
mod <- step(mod)分析结果:
summary(mod)https://stackoverflow.com/questions/55363297
复制相似问题