【学术】不友好的天空：使用数据预测航班取消率-第1部分

AiTechYun

发布于 2018-03-06 11:54:23

9810

发布于 2018-03-06 11:54:23

文章被收录于专栏：ATYUN订阅号

这是本系列文章中的第一部分，我们将探索一个用例和几个不同的机器学习平台，看看我们如何构建一个模型，一个可以帮助预测航班取消的平台。在第一部分中，我们将讨论用例，为什么限制场景，以及我们收集的数据以启动数据科学/机器学习过程。

用例

对于我们的用例，我们选择航班取消和天气数据有几个不同的原因。我们想要一个项目…

—已经有相当大的数据量，但不是太多，我们需要比我们的笔记本电脑更多的数据处理。

—需要从多个来源联合数据。

需要真正的数据科学/机器学习项目的各个步骤。CRISP-DM就是这样一个过程。

许多人认为“训练”模型是机器学习项目所包含的全部内容。要知道数据收集、数据准备、数据挖掘和数据工程等数据在这样一个项目中所花费的时间最多，因此并不需要太多的关于数据科学的知识。所以，我们想要一个用例和数据集，需要所有这些。

因此，我们决定，如果我们把天气数据和历史飞行数据结合起来，我们就可以预测航班取消的情况。这需要我们所寻找的所有东西，但最终也包括了我们之前没有想到的东西:数据严重失衡的事实。具体来说，在数据集中的所有航班中，只有一小部分实际上被取消。

这一事实促使我们更深入地了解如何处理数据中严重不平衡的类。首先，对于这个问题，“准确性”是一个可怕的度量。只是预测航班不会被取消，会给我们很大的准确率，但不是一个好的模型。我们需要寻找像混乱矩阵，精确，召回和ROC曲线这样的度量。接下来，我们想尝试不同的算法和技术，比如过采样和欠采样，惩罚我们的稀有类的错误分类，以及其他一些类似于SMOTE算法的东西。严重不平衡的数据使得分析变得困难，但我们意识到这在现实生活中也很常见。

限制范围

我们认为，对世界上每一个机场进行分析的范围太大了。即使是限制到美国的机场，我们的项目也需要更多的资金。所以我们决定限制最受天气影响的十大机场。这给我们留下了一个可管理的数据量，我们怀疑数据本身的不平衡性。一个快速的搜索给了我们这个站点，10个受天气影响最大的美国机场，以及我们将使用的10个机场。

数据收集

为了得到我们的飞行数据，我们使用了美国交通部的网站，它的过滤器让我们可以分离出我们想要的特性。不幸的是，站点只能一次提供一个月的数据。因此，我们不得不在2016年收集12个单独的文件，这增加了数据工程的复杂性，因为我们必须首先合并这12个数据文件，然后过滤除这10个机场外的所有机场。这并不难，但却是一个现实的任务。这12个文件保存了超过500万条记录，所以这不是Excel中可以完成的事情。

接下来，我们利用The Weather Company API为2016年的这10个机场站点获取历史天气数据。我们的计划是将这两个数据源作为数据准备和数据工程的一部分。

目标

我们的这个用例的目标是提出一个使用几个不同平台创建机器学习模型的练习。

在本系列的下一篇文章中，我们将使用IBM的SPSS Modeler，这对于初学者来说是非常理想的，因为它具有可视化的图形界面，许多不同的机器学习算法，其中包括找到最佳的机器学习算法，以及易于探索、准备和转换数据的方法。

在第三篇文章中，我们将尝试使用IBM的DSX云平台与Watson机器学习(WML)进行复制。使用Python编程语言创建一个Jupyter Notebook可能会让我们在代码和SPSS的GUI界面上有更大的灵活性。不可否认的是，如果您不是Python的向导，这也可能是一项更艰巨的任务，所以可能需要更长的时间。WML还在测试中，但我们将会看看它能做什么。

在最后一篇文章中，我们将尝试将我们首先做的SPSS模型转换为“flow”——这是IBM的DSX即将推出的一种新功能，它可以直接在DSX内提供SPSS Modeler功能。尝试用云中的流程重新创建我们最初的SPSS模型应该是很有趣的。

很明显，我们并没有试图创建一个生产质量模型。这需要更多的工作和时间。相反，我们想要创建一些能够很好地工作的东西，并且可以使用所描述的不同平台来完成。与此同时，如果有更多的工作和专业知识，这个项目可能会被调到生产质量的角度。如果是这样的话，我们可以想象酒店使用它在机场预测航班将被取消的实时广告。或者Uber可能会用它为滞留的乘客提供更多的汽车。或者，机场本身也可以利用这个模型来为取消预订做好准备，并为乘客提供更好的体验。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-01-15，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习