【学术】不友好的天空:使用数据预测航班取消率-第1部分

这是本系列文章中的第一部分,我们将探索一个用例和几个不同的机器学习平台,看看我们如何构建一个模型,一个可以帮助预测航班取消的平台。在第一部分中,我们将讨论用例,为什么限制场景,以及我们收集的数据以启动数据科学/机器学习过程。

用例

对于我们的用例,我们选择航班取消和天气数据有几个不同的原因。我们想要一个项目…

—已经有相当大的数据量,但不是太多,我们需要比我们的笔记本电脑更多的数据处理。

—需要从多个来源联合数据。

需要真正的数据科学/机器学习项目的各个步骤。CRISP-DM就是这样一个过程。

许多人认为“训练”模型是机器学习项目所包含的全部内容。要知道数据收集、数据准备、数据挖掘和数据工程等数据在这样一个项目中所花费的时间最多,因此并不需要太多的关于数据科学的知识。所以,我们想要一个用例和数据集,需要所有这些。

因此,我们决定,如果我们把天气数据和历史飞行数据结合起来,我们就可以预测航班取消的情况。这需要我们所寻找的所有东西,但最终也包括了我们之前没有想到的东西:数据严重失衡的事实。具体来说,在数据集中的所有航班中,只有一小部分实际上被取消。

这一事实促使我们更深入地了解如何处理数据中严重不平衡的类。首先,对于这个问题,“准确性”是一个可怕的度量。只是预测航班不会被取消,会给我们很大的准确率,但不是一个好的模型。我们需要寻找像混乱矩阵,精确,召回和ROC曲线这样的度量。接下来,我们想尝试不同的算法和技术,比如过采样和欠采样,惩罚我们的稀有类的错误分类,以及其他一些类似于SMOTE算法的东西。严重不平衡的数据使得分析变得困难,但我们意识到这在现实生活中也很常见。

限制范围

我们认为,对世界上每一个机场进行分析的范围太大了。即使是限制到美国的机场,我们的项目也需要更多的资金。所以我们决定限制最受天气影响的十大机场。这给我们留下了一个可管理的数据量,我们怀疑数据本身的不平衡性。一个快速的搜索给了我们这个站点,10个受天气影响最大的美国机场,以及我们将使用的10个机场。

数据收集

为了得到我们的飞行数据,我们使用了美国交通部的网站,它的过滤器让我们可以分离出我们想要的特性。不幸的是,站点只能一次提供一个月的数据。因此,我们不得不在2016年收集12个单独的文件,这增加了数据工程的复杂性,因为我们必须首先合并这12个数据文件,然后过滤除这10个机场外的所有机场。这并不难,但却是一个现实的任务。这12个文件保存了超过500万条记录,所以这不是Excel中可以完成的事情。

接下来,我们利用The Weather Company API为2016年的这10个机场站点获取历史天气数据。我们的计划是将这两个数据源作为数据准备和数据工程的一部分。

目标

我们的这个用例的目标是提出一个使用几个不同平台创建机器学习模型的练习。

在本系列的下一篇文章中,我们将使用IBM的SPSS Modeler,这对于初学者来说是非常理想的,因为它具有可视化的图形界面,许多不同的机器学习算法,其中包括找到最佳的机器学习算法,以及易于探索、准备和转换数据的方法。

在第三篇文章中,我们将尝试使用IBM的DSX云平台与Watson机器学习(WML)进行复制。使用Python编程语言创建一个Jupyter Notebook可能会让我们在代码和SPSS的GUI界面上有更大的灵活性。不可否认的是,如果您不是Python的向导,这也可能是一项更艰巨的任务,所以可能需要更长的时间。WML还在测试中,但我们将会看看它能做什么。

在最后一篇文章中,我们将尝试将我们首先做的SPSS模型转换为“flow”——这是IBM的DSX即将推出的一种新功能,它可以直接在DSX内提供SPSS Modeler功能。尝试用云中的流程重新创建我们最初的SPSS模型应该是很有趣的。

很明显,我们并没有试图创建一个生产质量模型。这需要更多的工作和时间。相反,我们想要创建一些能够很好地工作的东西,并且可以使用所描述的不同平台来完成。与此同时,如果有更多的工作和专业知识,这个项目可能会被调到生产质量的角度。如果是这样的话,我们可以想象酒店使用它在机场预测航班将被取消的实时广告。或者Uber可能会用它为滞留的乘客提供更多的汽车。或者,机场本身也可以利用这个模型来为取消预订做好准备,并为乘客提供更好的体验。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

今日头条算法原理全曝光!(算法架构师详细解读,建议仔细看!)

今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一...

6778
来自专栏新智元

【Nature重磅】扩散型忆阻器带来类脑计算大突破,或成神经计算机时代“晶体管”

【新智元导读】马萨诸塞大学阿默斯特分校研究人员研发出一种新型忆阻器,能够忠实模拟生物神经元突触的功能,相关论文日前在《自然-材料》发表。实验证明,与传统的漂移型...

3737
来自专栏CSDN技术头条

SDCC 2015算法专场札记:知名互联网公司的算法实践

【编者按】11月21日,为期三天的SDCC2015中国软件开发者大会成功闭幕,主办方总计邀请了95余位演讲嘉宾,为参会者奉献了10个主题演讲,9大技术专场论坛(...

1896
来自专栏每周一脱topic

推荐系统-学习总结

推荐系统目前几乎无处不在,主流的app都基本应用到了推荐系统。

70813
来自专栏数据派THU

全解今日头条大数据算法原理(附PPT&视频)

来源:今日头条 通过本文为大家从4个方面介绍今日头条推荐系统的算法原理。 3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交...

4014
来自专栏PPV课数据科学社区

机器学习&人工智能:数据赋能背后的黑科技

? 背景 马老师曾提到三次技术革命:“第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命是IT...

3406
来自专栏云市场·精选汇

如何细致地为用户提供业务知识服务?

近年随着深度学习及强化学习技术的进一步深入,智能问答机器人所依赖的知识库构建与维护成本也随之减少。大数据分析和智能语音技术在客服场景深入应用,AI正在变革客服行...

952
来自专栏华章科技

干货丨3分钟了解今日头条推荐算法原理

今日头条的内容分发算法一直颇神秘低调。自12年开发运营起进四次改版,从未透露核心内容。

992
来自专栏大数据文摘

机器学习的本质是人类学习?5大要素详解个性化推荐的商业化之路

2059
来自专栏机器学习算法与Python学习

全面解析今日头条大数据算法原理(附PPT&视频)

1473

扫码关注云+社区