专栏首页ATYUN订阅号【学术】不友好的天空:使用数据预测航班取消率-第1部分

【学术】不友好的天空:使用数据预测航班取消率-第1部分

这是本系列文章中的第一部分,我们将探索一个用例和几个不同的机器学习平台,看看我们如何构建一个模型,一个可以帮助预测航班取消的平台。在第一部分中,我们将讨论用例,为什么限制场景,以及我们收集的数据以启动数据科学/机器学习过程。

用例

对于我们的用例,我们选择航班取消和天气数据有几个不同的原因。我们想要一个项目…

—已经有相当大的数据量,但不是太多,我们需要比我们的笔记本电脑更多的数据处理。

—需要从多个来源联合数据。

需要真正的数据科学/机器学习项目的各个步骤。CRISP-DM就是这样一个过程。

许多人认为“训练”模型是机器学习项目所包含的全部内容。要知道数据收集、数据准备、数据挖掘和数据工程等数据在这样一个项目中所花费的时间最多,因此并不需要太多的关于数据科学的知识。所以,我们想要一个用例和数据集,需要所有这些。

因此,我们决定,如果我们把天气数据和历史飞行数据结合起来,我们就可以预测航班取消的情况。这需要我们所寻找的所有东西,但最终也包括了我们之前没有想到的东西:数据严重失衡的事实。具体来说,在数据集中的所有航班中,只有一小部分实际上被取消。

这一事实促使我们更深入地了解如何处理数据中严重不平衡的类。首先,对于这个问题,“准确性”是一个可怕的度量。只是预测航班不会被取消,会给我们很大的准确率,但不是一个好的模型。我们需要寻找像混乱矩阵,精确,召回和ROC曲线这样的度量。接下来,我们想尝试不同的算法和技术,比如过采样和欠采样,惩罚我们的稀有类的错误分类,以及其他一些类似于SMOTE算法的东西。严重不平衡的数据使得分析变得困难,但我们意识到这在现实生活中也很常见。

限制范围

我们认为,对世界上每一个机场进行分析的范围太大了。即使是限制到美国的机场,我们的项目也需要更多的资金。所以我们决定限制最受天气影响的十大机场。这给我们留下了一个可管理的数据量,我们怀疑数据本身的不平衡性。一个快速的搜索给了我们这个站点,10个受天气影响最大的美国机场,以及我们将使用的10个机场。

数据收集

为了得到我们的飞行数据,我们使用了美国交通部的网站,它的过滤器让我们可以分离出我们想要的特性。不幸的是,站点只能一次提供一个月的数据。因此,我们不得不在2016年收集12个单独的文件,这增加了数据工程的复杂性,因为我们必须首先合并这12个数据文件,然后过滤除这10个机场外的所有机场。这并不难,但却是一个现实的任务。这12个文件保存了超过500万条记录,所以这不是Excel中可以完成的事情。

接下来,我们利用The Weather Company API为2016年的这10个机场站点获取历史天气数据。我们的计划是将这两个数据源作为数据准备和数据工程的一部分。

目标

我们的这个用例的目标是提出一个使用几个不同平台创建机器学习模型的练习。

在本系列的下一篇文章中,我们将使用IBM的SPSS Modeler,这对于初学者来说是非常理想的,因为它具有可视化的图形界面,许多不同的机器学习算法,其中包括找到最佳的机器学习算法,以及易于探索、准备和转换数据的方法。

在第三篇文章中,我们将尝试使用IBM的DSX云平台与Watson机器学习(WML)进行复制。使用Python编程语言创建一个Jupyter Notebook可能会让我们在代码和SPSS的GUI界面上有更大的灵活性。不可否认的是,如果您不是Python的向导,这也可能是一项更艰巨的任务,所以可能需要更长的时间。WML还在测试中,但我们将会看看它能做什么。

在最后一篇文章中,我们将尝试将我们首先做的SPSS模型转换为“flow”——这是IBM的DSX即将推出的一种新功能,它可以直接在DSX内提供SPSS Modeler功能。尝试用云中的流程重新创建我们最初的SPSS模型应该是很有趣的。

很明显,我们并没有试图创建一个生产质量模型。这需要更多的工作和时间。相反,我们想要创建一些能够很好地工作的东西,并且可以使用所描述的不同平台来完成。与此同时,如果有更多的工作和专业知识,这个项目可能会被调到生产质量的角度。如果是这样的话,我们可以想象酒店使用它在机场预测航班将被取消的实时广告。或者Uber可能会用它为滞留的乘客提供更多的汽车。或者,机场本身也可以利用这个模型来为取消预订做好准备,并为乘客提供更好的体验。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:nanan

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python可视化解析MCMC

    马尔可夫链可以定义为一个随机过程Y,其中t时刻各点的值只取决于t-1时刻的值。这意味着随机过程在t时刻有状态x的概率,给定它所有的过去状态,等于在t时刻有状态x...

    AiTechYun
  • 优步宣布停止在美国亚利桑那州的自动驾驶汽车计划,解雇200多名相关工作人员

    “我们致力于自动驾驶技术,我们期待在不久的将来回到公共道路上,”优步发言人表示,“与此同时,我们仍将重点放在全面的安全评估上,让NTSB前任主席Christop...

    AiTechYun
  • 数据科学家需要知道的5个基本统计概念

    在执行数据科学(DS)时,统计是一种强大的工具。笼统来看,统计学是利用数学来进行数据的技术分析。基础的可视化(例如,条形图等)可能会为你提供一些高级信息,而通过...

    AiTechYun
  • VR开发--搭建UI框架(1)

    一般来说:我们做精美的界面,肯定是按部就班的拖UI控件,不停的引用来调用制作。但是随着我们掌握的熟练度,会发现一些类似的界面完全可以封装起来,而且通过进一步优化...

    雷潮
  • 腾讯云平台部总经理陈磊:大数据背后的技术支撑

    image.png 大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“...

    腾讯研究院
  • “全民K歌”有什么秘密?网站数据分析之数据的获取

    最近看到身边好几个朋友都在用“全民K歌”这款软件在手机上K歌,使用频率还是很高,于是就想来看看全民K歌平台的用户究竟是一群什么样的用户?他们有什么样的特征。然后...

    小小科
  • TensorFlow在工程项目中的应用 公开课视频+文字转录(上)

    本周四,雷锋网 AI 研习社邀请了跨国 IT 巨头 Thoughtworks 的资深数据架构师白发川,主讲线上公开课,为大家讲解 TensorFlow 在工程项...

    AI研习社
  • 中国人骨子里的10大矛盾行为

    我们身边或多或少会有这样的人:工作有爹安排,房子老爹给买,车子从爹那儿开,票子说来就来。他们撞人了,对受害者说“我爸是李刚”;他们考挂了,对老师说“我爸是XX”...

    用户1756920
  • Google APAC 2015 University Graduates Test Round D

    Google APAC 2015 University Graduates Test Round D

    宅男潇涧
  • 京东价格保护高并发 | 七步走保证用户体验

    2014年加入京东,负责京东财务退款及价格保护研发建设,擅长京东逆向流程场景、金额拆分计算、高并发下网站优化。

    京东技术

扫码关注云+社区

领取腾讯云代金券