【学术】不友好的天空:使用数据预测航班取消率-第1部分

这是本系列文章中的第一部分,我们将探索一个用例和几个不同的机器学习平台,看看我们如何构建一个模型,一个可以帮助预测航班取消的平台。在第一部分中,我们将讨论用例,为什么限制场景,以及我们收集的数据以启动数据科学/机器学习过程。

用例

对于我们的用例,我们选择航班取消和天气数据有几个不同的原因。我们想要一个项目…

—已经有相当大的数据量,但不是太多,我们需要比我们的笔记本电脑更多的数据处理。

—需要从多个来源联合数据。

需要真正的数据科学/机器学习项目的各个步骤。CRISP-DM就是这样一个过程。

许多人认为“训练”模型是机器学习项目所包含的全部内容。要知道数据收集、数据准备、数据挖掘和数据工程等数据在这样一个项目中所花费的时间最多,因此并不需要太多的关于数据科学的知识。所以,我们想要一个用例和数据集,需要所有这些。

因此,我们决定,如果我们把天气数据和历史飞行数据结合起来,我们就可以预测航班取消的情况。这需要我们所寻找的所有东西,但最终也包括了我们之前没有想到的东西:数据严重失衡的事实。具体来说,在数据集中的所有航班中,只有一小部分实际上被取消。

这一事实促使我们更深入地了解如何处理数据中严重不平衡的类。首先,对于这个问题,“准确性”是一个可怕的度量。只是预测航班不会被取消,会给我们很大的准确率,但不是一个好的模型。我们需要寻找像混乱矩阵,精确,召回和ROC曲线这样的度量。接下来,我们想尝试不同的算法和技术,比如过采样和欠采样,惩罚我们的稀有类的错误分类,以及其他一些类似于SMOTE算法的东西。严重不平衡的数据使得分析变得困难,但我们意识到这在现实生活中也很常见。

限制范围

我们认为,对世界上每一个机场进行分析的范围太大了。即使是限制到美国的机场,我们的项目也需要更多的资金。所以我们决定限制最受天气影响的十大机场。这给我们留下了一个可管理的数据量,我们怀疑数据本身的不平衡性。一个快速的搜索给了我们这个站点,10个受天气影响最大的美国机场,以及我们将使用的10个机场。

数据收集

为了得到我们的飞行数据,我们使用了美国交通部的网站,它的过滤器让我们可以分离出我们想要的特性。不幸的是,站点只能一次提供一个月的数据。因此,我们不得不在2016年收集12个单独的文件,这增加了数据工程的复杂性,因为我们必须首先合并这12个数据文件,然后过滤除这10个机场外的所有机场。这并不难,但却是一个现实的任务。这12个文件保存了超过500万条记录,所以这不是Excel中可以完成的事情。

接下来,我们利用The Weather Company API为2016年的这10个机场站点获取历史天气数据。我们的计划是将这两个数据源作为数据准备和数据工程的一部分。

目标

我们的这个用例的目标是提出一个使用几个不同平台创建机器学习模型的练习。

在本系列的下一篇文章中,我们将使用IBM的SPSS Modeler,这对于初学者来说是非常理想的,因为它具有可视化的图形界面,许多不同的机器学习算法,其中包括找到最佳的机器学习算法,以及易于探索、准备和转换数据的方法。

在第三篇文章中,我们将尝试使用IBM的DSX云平台与Watson机器学习(WML)进行复制。使用Python编程语言创建一个Jupyter Notebook可能会让我们在代码和SPSS的GUI界面上有更大的灵活性。不可否认的是,如果您不是Python的向导,这也可能是一项更艰巨的任务,所以可能需要更长的时间。WML还在测试中,但我们将会看看它能做什么。

在最后一篇文章中,我们将尝试将我们首先做的SPSS模型转换为“flow”——这是IBM的DSX即将推出的一种新功能,它可以直接在DSX内提供SPSS Modeler功能。尝试用云中的流程重新创建我们最初的SPSS模型应该是很有趣的。

很明显,我们并没有试图创建一个生产质量模型。这需要更多的工作和时间。相反,我们想要创建一些能够很好地工作的东西,并且可以使用所描述的不同平台来完成。与此同时,如果有更多的工作和专业知识,这个项目可能会被调到生产质量的角度。如果是这样的话,我们可以想象酒店使用它在机场预测航班将被取消的实时广告。或者Uber可能会用它为滞留的乘客提供更多的汽车。或者,机场本身也可以利用这个模型来为取消预订做好准备,并为乘客提供更好的体验。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能的秘密

深度学习让人脸识别准确率不断提升

  人脸识别、图像分类、语音识别是最早的深度学习取得突破的主要几个技术方向。在2014年前后,多家技术公司纷纷宣布其利用深度学习在LFW上取得的最新成果,此为深...

2239
来自专栏机器之心

业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP

选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciel...

28010
来自专栏企鹅号快讯

打开人工智能的“潘多拉魔盒”

数以百万计的人每天都在以某种形式使用着人工智能(AI),而其中大部分都是在不知不觉中进行的,本文将简单列举AI在文本、音频、图像、视频、互动等方面的应用。 ? ...

1939
来自专栏企鹅号快讯

用照片也能追踪手机?人脸识别迎来“终结者”

就像世界上没有两片相同的雪花,你用手机拍摄的每张照片也是独一无二的。布法罗大学的研究人员掌握了一种方法,可以通过分析照片来追踪拍摄的手机,这项研究为身份验证提供...

1655
来自专栏喔家ArchiSelf

老码农眼中的简明AI

就像每个人眼中都有一个自己的哈姆雷特一样,每一个看AI 都是不一样的。作为一个老程序员,也只是一个工作时间长一些的程序员而已,本没有什么资格定义AI,但是面对这...

463
来自专栏AI研习社

DeepMind 开源虚拟实验室 Psychlab,利用认知心理学对智能体进行研究

日前,DeepMind 开源其虚拟实验室 Psychlab,通过 Psychlab,大家可以直接应用认知心理学等领域的方法,来研究智能体在受控环境中的行为。A...

36613
来自专栏机器人网

懒人有福:Maryland大学欲开发能跟视频学做饭的机器人

懒得做饭的上班族和暗黑料理的大宗师们,还在为做饭发愁吗?Maryland大学正在研发的一款机器人,在看完YouTube上的烹饪视频后,就能把饭菜做出来。 如果...

2564
来自专栏新智元

19门AI在线课程:从入门课程到名校高级学位

902
来自专栏互联网数据官iCDO

A/B测试的十个黄金准则

译者:李睿 本文长度为2770字,预估阅读时间4分钟。 互联网营销人员经常会用A/B测试的方法来优化广告策略,进而实现收入或转化率的提升。但是,如果并未采用正确...

3448
来自专栏ATYUN订阅号

谷歌Move Mirror机器学习实验:你一动,8万张图像跟着动作匹配

谷歌在博客文章中展示了“Move Mirror”,这是一个机器学习实验,可以将你的姿势与同一姿势的其他人的图像相匹配。

912

扫描关注云+社区