我正在学习M.Sc数据科学,在“决策支持系统”模块中,我和我的团队必须做一个报告。我们的建议如下:
由于通常对跑道的需求很高,而且需要复杂的组织来规划有效的飞行连接,飞机到达或起飞的延误对航空公司和乘客来说都是昂贵的。虽然延误的许多原因(如天气、机械故障、服务问题或罢工)可能很难提前预测,但可能会根据以前航班的抵达和起飞统计数据发现延误的模式,并用来预测未来的航班是否准时。
目标和交付成果,在项目结束时,我们希望开发一个模型,根据航班、机场、飞行时间等变量,准确地(基于大于随机机会的AUC )确定一次航班是否会延误,以及所提供的变量(航空、机场、飞行时间等)。它不依赖于天气预报的知识,也不依赖先前航班的状况。本项目的范围将是利用蒙特卡洛或随机森林建立一个模型,以便根据周数、航空公司、机场、飞行时间等自变量预测一次航班是否会延误。预测天气或先前飞行状况等因变量将不包括或考虑用于该模型的目的。
方法使用Python代码,我们打算遵循OSEMN管道。首先,从Kaggle获得数据。其次,导入和删除/预处理数据,以检查NAN值,并添加分类数据转换(对于随机森林选项)。第三,在此之后,我们将进行探索性数据分析和创建可视化,以确定关键的变量和趋势。第四,建立模型,分配测试和验证数据集,对模型进行训练。第五,用AUC对模型的有效性进行解释,并对模型的准确性进行比较,以检验模型的有效性和过度训练的正确性。
数据集我们将使用美国运输局提供的数据,所涵盖的时间段为2019年1月1日至2019年12月6日,跟踪大型商业航空公司运营的美国国内航班的准时性能。该数据提供了关于准时航班、延迟航班、取消航班和改道航班数量的汇总信息,以及取消航班和航班数据。由一个用户在Kaggle上编译和发布的原始数据集包含484,521次航班的29个数据点。
https://www.kaggle.com/datasets/undersc0re/flight-delay-and-causes?resource=download
因此,我们要对随机森林模型、决策树模型和第三模型(如果适用的话进行蒙特卡罗模拟)进行预测,然后对这三种模型进行比较。我的角色是MC模拟,但我很难找到一个开始。因为我只使用Pandas_Datareader找到了股票预测,但我不知道如何使用(Kaggle)数据集来处理它。
你们对MC模拟有什么建议吗?或者可以推荐另一种型号?会很棒的!谢谢,韦恩
发布于 2022-06-13 12:52:58
90%的航班延误都是由天气造成的。怎么可能用剩下的10%的原因来做可靠的预测呢?(如果有他们的数据)
您有一个名为苦难图的现有地图,在该地图中,您可以看到恶劣天气与延迟之间有很强的相关性。
如果你点击“播放”按钮,你会发现每次在机场上空下雨,延误都会显著增加。
没有天气,你能做的最好是处理高交通时间(通常在上午11点或下午5点左右):当交通更加密集时,通常会出现更多的延误。
发布于 2022-07-17 06:20:39
你可以得到一个简单的概念,模型的准确性,飞行延迟算法。
https://datascience.stackexchange.com/questions/111770
复制相似问题