首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >回归分析

回归分析
EN

Stack Overflow用户
提问于 2019-03-27 01:42:37
回答 1查看 83关注 0票数 0

我目前正在做一个项目,我需要一些帮助。我想用一个统计模型来预测航班延误的长度。该数据集不包含航班延误的长度,但它可以从实际起飞时间和预定起飞时间计算出来,我知道实际起飞时间-预定起飞时间会给出航班延误,这是因变量。我正在努力使解释(独立)变量以一种有用的形式进行回归分析-主要问题是当您从csv文件中读取表时,前两列的时间格式。我已经将数据文件附加到问题中,因为我不太确定如何附加我的文件,我对这个编码的东西是新的。任何帮助都将不胜感激。xx

https://drive.google.com/file/d/11BXmJCB5UGEIRmVkM-yxPb_dHeD2CgXa/view?usp=sharing

编辑:

首先,感谢您的帮助

好的,我将尝试在这个话题上问一些更精确的问题:

因此,在使用以下命令导入文件后:

1)

代码语言:javascript
运行
复制
    Delays <- read.table("FlightDelaysSM.csv",header =T,sep=",") 

2)我遇到的主要问题是将列的调度时间和深度时间转换成可以进行算术计算的格式

3)我尝试了下面的方法

代码语言:javascript
运行
复制
    Delays[,1] - Delays[,2] 

在出现明显问题的情况下,例如800 (上午8点)- 756 (上午7.56点)= 44而不是4分钟

4)使用@kerry Jackson的帮助(谢谢,你太棒了x)我试过了

代码语言:javascript
运行
复制
    DepartureTime <- strptime(formatC(Delays$deptime, width = 4, format = "d", flag = "0", %H%M)

    ScheduleTime <- strptime(formatC(Delays$schedtime, width = 4, format = "d", flag = "0", %H%M)

    DelayTime = DepartureTime - ScheduleTime

这些值也是以秒为单位的,我希望差是以分钟为单位,我该怎么做呢?

5)然后我做了以下操作:

代码语言:javascript
运行
复制
    DelayData <- data.frame(ScheduleTime, DepartureTime, DelayTime, Delays[, 4:7])

What I attain after making the DelayData

如图所示,我在名为DelayTime的列中有秒单位,而日期在ScheduleTime和DepartureTime列中,我不希望这样做。我能得到一些关于如何纠正这个问题的建议吗?

EN

回答 1

Stack Overflow用户

发布于 2019-03-27 02:30:21

创建一个名为flight_delay的新列

代码语言:javascript
运行
复制
install.packages('tidyverse')
library(tidyverse)

your_data <- your_data %>%
  mutate(flight_delay=deptime-schedtime)

现在,创建一个线性回归模型,通过每个其他变量预测flight_delay

代码语言:javascript
运行
复制
mod <- lm(flight_delay ~ ., data=your_data)

要优化模型,请使用step函数:

代码语言:javascript
运行
复制
mod <- step(mod)

分析结果:

代码语言:javascript
运行
复制
summary(mod)
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55363297

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档