【学术】不友好的天空:使用数据预测航班取消率-第1部分

这是本系列文章中的第一部分,我们将探索一个用例和几个不同的机器学习平台,看看我们如何构建一个模型,一个可以帮助预测航班取消的平台。在第一部分中,我们将讨论用例,为什么限制场景,以及我们收集的数据以启动数据科学/机器学习过程。

用例

对于我们的用例,我们选择航班取消和天气数据有几个不同的原因。我们想要一个项目…

—已经有相当大的数据量,但不是太多,我们需要比我们的笔记本电脑更多的数据处理。

—需要从多个来源联合数据。

需要真正的数据科学/机器学习项目的各个步骤。CRISP-DM就是这样一个过程。

许多人认为“训练”模型是机器学习项目所包含的全部内容。要知道数据收集、数据准备、数据挖掘和数据工程等数据在这样一个项目中所花费的时间最多,因此并不需要太多的关于数据科学的知识。所以,我们想要一个用例和数据集,需要所有这些。

因此,我们决定,如果我们把天气数据和历史飞行数据结合起来,我们就可以预测航班取消的情况。这需要我们所寻找的所有东西,但最终也包括了我们之前没有想到的东西:数据严重失衡的事实。具体来说,在数据集中的所有航班中,只有一小部分实际上被取消。

这一事实促使我们更深入地了解如何处理数据中严重不平衡的类。首先,对于这个问题,“准确性”是一个可怕的度量。只是预测航班不会被取消,会给我们很大的准确率,但不是一个好的模型。我们需要寻找像混乱矩阵,精确,召回和ROC曲线这样的度量。接下来,我们想尝试不同的算法和技术,比如过采样和欠采样,惩罚我们的稀有类的错误分类,以及其他一些类似于SMOTE算法的东西。严重不平衡的数据使得分析变得困难,但我们意识到这在现实生活中也很常见。

限制范围

我们认为,对世界上每一个机场进行分析的范围太大了。即使是限制到美国的机场,我们的项目也需要更多的资金。所以我们决定限制最受天气影响的十大机场。这给我们留下了一个可管理的数据量,我们怀疑数据本身的不平衡性。一个快速的搜索给了我们这个站点,10个受天气影响最大的美国机场,以及我们将使用的10个机场。

数据收集

为了得到我们的飞行数据,我们使用了美国交通部的网站,它的过滤器让我们可以分离出我们想要的特性。不幸的是,站点只能一次提供一个月的数据。因此,我们不得不在2016年收集12个单独的文件,这增加了数据工程的复杂性,因为我们必须首先合并这12个数据文件,然后过滤除这10个机场外的所有机场。这并不难,但却是一个现实的任务。这12个文件保存了超过500万条记录,所以这不是Excel中可以完成的事情。

接下来,我们利用The Weather Company API为2016年的这10个机场站点获取历史天气数据。我们的计划是将这两个数据源作为数据准备和数据工程的一部分。

目标

我们的这个用例的目标是提出一个使用几个不同平台创建机器学习模型的练习。

在本系列的下一篇文章中,我们将使用IBM的SPSS Modeler,这对于初学者来说是非常理想的,因为它具有可视化的图形界面,许多不同的机器学习算法,其中包括找到最佳的机器学习算法,以及易于探索、准备和转换数据的方法。

在第三篇文章中,我们将尝试使用IBM的DSX云平台与Watson机器学习(WML)进行复制。使用Python编程语言创建一个Jupyter Notebook可能会让我们在代码和SPSS的GUI界面上有更大的灵活性。不可否认的是,如果您不是Python的向导,这也可能是一项更艰巨的任务,所以可能需要更长的时间。WML还在测试中,但我们将会看看它能做什么。

在最后一篇文章中,我们将尝试将我们首先做的SPSS模型转换为“flow”——这是IBM的DSX即将推出的一种新功能,它可以直接在DSX内提供SPSS Modeler功能。尝试用云中的流程重新创建我们最初的SPSS模型应该是很有趣的。

很明显,我们并没有试图创建一个生产质量模型。这需要更多的工作和时间。相反,我们想要创建一些能够很好地工作的东西,并且可以使用所描述的不同平台来完成。与此同时,如果有更多的工作和专业知识,这个项目可能会被调到生产质量的角度。如果是这样的话,我们可以想象酒店使用它在机场预测航班将被取消的实时广告。或者Uber可能会用它为滞留的乘客提供更多的汽车。或者,机场本身也可以利用这个模型来为取消预订做好准备,并为乘客提供更好的体验。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏老秦求学

[推荐系统读书笔记]好的推荐系统

在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自...

824
来自专栏架构师之路

从0开始做互联网推荐-以58转转为例

从0开始做互联网推荐【产品+算法+实现】 一、58转转简介 58旗下真实个人闲置物品交易平台 二、从0开始设计推荐产品框架 (1)首页推荐:提取用户画像,根据线...

3637
来自专栏钱塘大数据

【盘点】15个开源的顶级人工智能工具

1. Caffe、2. CNTK、3. Deeplearning4、j4. 分布式机器学习工具包、5. H2O、6. Mahout、7. MLlib、8. Nu...

3655
来自专栏奇点大数据

Pytorch神器(10)

今天聊一聊IT工程师如何转型深度学习工程师的话题。其实这个话题已经不是第一次聊了,也是很多IT工程师朋友比较关心的。毕竟在新一代的IT工作环境中,AI思维几乎是...

1142
来自专栏AI科技大本营的专栏

终于能用Google的TPU跑代码了,每小时6.5美元

AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs ...

37210
来自专栏量子位

百度让AI像婴儿一样学语言,还能举一反三听老师指挥走迷宫

李杉 李林 编译整理 量子位 出品 | 公众号 QbitAI 把已经学会的技能用在新的任务上,对于人类来说是很简单的事,但这种“泛化”能力是机器所缺乏的。 百度...

3278
来自专栏phodal

我是如何为技术博客设计一个推荐系统(上):统计与评分加权

过去的两周里,我一直忙于为 『玩点什么』 设计一个推荐系统。在这个过程中,参考几本书籍,查找了一系列的资料。想着这些资料上,大部分都是大同小异的,实现了几个简单...

3196
来自专栏大数据挖掘DT机器学习

机器学习开发者的现代化路径:不需要从统计学微积分开始

原文:http://machinelearningmastery.com/machine-learning-for-programmers/ 译文:http:...

35910
来自专栏PPV课数据科学社区

快点进来get“推荐系统常用的推荐算法”

? 一、推荐系统概述和常用评价指标 1.1 推荐系统的特点 在知乎搜了一下推荐系统,果真结果比较少,显得小众一些,然后大家对推荐系统普遍的观点是: (1)重...

3419
来自专栏人工智能快报

Google的开源人工智能引擎预示着重大硬件变革

2015年11月9日,Google将其人工智能引擎(AI)作为开源项目发布到互联网上,作为最重要的创新项目之一,这显示了计算机软件行业正在发生着的变革。最近,互...

3186

扫码关注云+社区