怎样缓解机场“交通难”?这有一套大数据“治愈法”

无论乘飞机,还是赶高铁,公共交通如今依然是多数人的选择。但是常常遇到的排队、拥堵等问题,却让出行的体验大受影响。如何才能在出行中获得更好的体验?在12月27日的数据侠线上实验室,DT君邀请到2017年上海开放数据创新应用大赛(SODA)“种子奖”团队QuickPath成员、邓韩贝公司(dunnhumby)数据科学家黄依米、咨询经理吴今回,以机场交通为例,为我们带来了一套优化机场交通体验的大数据方案。

▍机场交通难,如何靠大数据来解决?

很多人在选择公共交通方式前往机场乘坐航班的时候,可能都会有这样的经历,比如打车难,地铁拥挤,携带大件行李不方便,机场大巴站点远,时间路线不合适等等。

这些问题不仅成为航旅乘客的痛点,也成为影响一座城市形象的短板。

如何来解决机场交通难问题呢?在2017年SODA(上海开放数据创新应用大赛)大赛中,我们(QuickPath团队)给出了一套解决方案:利用大数据来优化机场公共交通体验。

我们的想法是通过分析上海两大机场(浦东机场,虹桥机场)的航旅数据、交通卡数据、出租车等交通大数据,并结合天气、空气质量指数、城市道路交通指数等数据建立需求预测模型。利用这个预测模型可以帮助有关部门优化机场公共交通资源的配置和规划,并为旅客提供个性化公共交通出行方案。解决机场“交通难”的问题,提升机场作为上海形象窗口的旅客体验。

通过该模型,能够预测什么时间、什么地方有更多的乘客需要搭乘公共交通去机场。从而可以帮助有关部门调整优化机场公共交通资源的配置与规划。

帮助出租车公司和司机更好的掌握机场用车需求,优化调度,提升效率增加效益。还可以帮出发和到达的旅客,根据自身情况和实时交通状况更好地规划自己的行程。

▍建立模型所需要的数据以及技术架构

接下来,我们具体说说预测模型。

先是数据的来源。我们的模型用到了以下数据:

1. 航旅数据: 利用机场起降航班数量,上座率可以算出机场公共交通的需求数量。通过出发/到达机场筛选与上海两大机场相关记录,并通过起降时间与其他数据整合连接。

2. 一卡通乘客刷卡数据:机场轨道交通需求的历史数据,通过线路/站点信息筛选和上海两大机场相关记录,并通过日期时间与其他数据整合连接。

3. 强生出租汽车行车数据:机场出租车需求与供给的历史数据,通过GPS位置数据筛选与上海两大机场相关记录,并通过日期时间与其他数据整合连接。

4. 城市道路交通指数:该数据会影响乘客公共交通方式的选择,通过区域、日期时间与其他数据整合连接。

5. 上海实时雨量,上海气象数据和上海市空气质量数据:这三种数据会影响机场流量和乘客公共交通方式的选择,通过站点位置、日期时间与其他数据整合连接。

再来看我们的整体技术架构:

1. 整合机场地铁、出租车等公共交通数据,进行深入分析,识别其时间、起始地/目的地区域分布特征,使用Tableau建立可视化工具,并在此基础上提出机场巴士路线图和时间表设计。

2. 整合机场航班起降数量、入座率、地铁、出租车数据以及天气、空气质量、城市道路交通指数等外部数据,使用机器学习、时间序列分析等方法建立需求预测模型,预测不同时间和内外部条件下旅客对于机场公共交通的需求总量和对不同公共交通方式的需求分布情况,并以API方式建立“模型即服务”,接入客户数据平台或第三方平台。

在前面的基础上,建立相应前端软件或小程序,为旅客机场公共交通出行提供个性化推荐服务。

▍如何进行数据清洗及建模

在建模之前,数据的清洗和整合是非常重要的一个环节。

对于航旅数据,我们会利用航班票务数据筛选出发地或目的地机场为上海两大机场的记录,计算不同时间航班数量与每个航班的上座人数。

而地铁数据,则是利用交通卡数据筛选所有交通类型为地铁的数据,按卡号、日期、时间对所有记录排序,关联前后两条进站与出站记录,形成一条完整的行程数据;筛选所有进站或出站信息为两大机场站点的数据。

关于出租车数据,我们是将所有数据文件拼接,按车辆ID、数据接收时间对所有记录进行排序,根据空车/重车状态的变化判断上客、下客节点,并将上下客信息关联,形成包含上下客时间、地点的完整行程记录;通过上下客地点经纬度信息计算与两大机场经纬度之间的距离,筛选上客或下客地点在两大机场1公里范围内的行程记录,以及在机场3公里、5公里范围内的所有空车记录。

在数据的整合方面,我们是按小时对以上数据进行合计,并与空气质量、雨量等外部数据关联,行成需求模型的输入数据表。

到了建模环节,我们则是用时间序列分析,预测机场每小时旅客人数。在理想情况下需要2年以上航旅数据才可以捕捉趋势和季节性。

此外,我们还使用了广义线性模型来建立需求预测模型,输入旅客数量、交通方式、节日周末假日等因素,出发地、目的地、行程时长、费用等行程细节, 天气、雨量、空气质量、交通路况等外部因素,可以预测选择不同交通方式需求数量。

这个模型当然还有可以优化改进的地方,比如可以通过线性/非线性优化技术, 还可以加入蓄车场容车量,出租车等候面积等,机场实际限制条件优化模型预测结果。

▍可视化方案以及模型原型的测试结果

有了模型,当然也少不了可视化。

我们利用Tableau建立了不同日期和时间从两大机场出发或前往两大机场的出租车线路图、地铁各站点的客流量图,帮助了解相关需求的分布特征。

此外,还建立了面向出租车公司的机场出租车需求预测“模型即服务”前端面板演示图。并且,也使用wireframe工具,建立了面向旅行者的机场交通信息与推荐服务的APP/小程序前端交互页面演示图。

下面来看看我们的模型原型的一些测试结果:

左边的2张图是出租车数据的可视化结果。左上的图展示了不同星期每小时从浦东机场出发的出租车的终点分布,颜色深浅度代表行程用时长短。

左下图展示了不同星期每小时前往浦东机场的出租车的上车地点的分布,颜色深浅度代表行程用时长短,密度代表不同地理位置的用车人数。

假想这个原型应用在出租车公司或者滴滴专车,改进调度后可以更好的帮助司机找到什么时间、什么地点更容易地接去往机场的单,也更方便旅客快速找到车。

而右边2张图则是地铁数据可视化结果。不同颜色代表不同线路,点的大小代表该站点客流量的大小。右上图是从浦东机场出发的旅客下地铁的站点分布图。右下图是前往浦东机场的旅客的乘车站点的分布图。

以上图从浦东机场出发的地铁流量图为例,通过点的颜色区分线路,点的大小代表客流大小,数字标签代表从浦东机场到达该站的平均时长;从上图中可以看出2号线沿线站点为机场地铁线路的主力站点,此外1号线的莘庄方向、彭浦方向,9号线松江大学城方向等也具有较多客流。

上图则是从浦东机场出发的出租车目的地分布图。

其中,点的颜色深浅度代表行程用时长短;松江、嘉定、宝山吴淞、川沙等地远离市区,并且具有较多的出租车需求聚集;对比地铁客流图,前往松江、嘉定、吴淞等地地铁耗时均较长,而川沙站地铁客流很大。

基于之前对于公共交通需求在时间和空间上的分析,建议设置前往宝山、嘉定、松江等方向的机场巴士,提供旅客相对低价快速的出行方式;增加前往川沙的短途大巴,缓解2号线拥挤;同时可考虑增加前往市中心2号线沿线(世纪大道、人民广场、中山公园等)的大巴,以及直通两大机场的巴士。

除了对需求特征做了可视化。我们还建立了“模型即服务”的前端面板演示。如下图:

可以设想一下,通过此面板可以帮助出租车公司更好掌握机场出租车需求与潜在供给情况,提高调度与运营效率。比如,发现候车时间长、供给存在缺口时,及时调度附近空车前往机场;发现供给过剩、排队时间长时,及时疏散排队车辆。

另外,我们还设计了一个面向旅客的APP服务软件演示图:

此前端交互页面演示展示了将“模型即服务”接入航旅服务或机场服务软件,提供机场公共交通信息与个性化推荐的扩展服务设想。

▍模型的局限性及应用前景

需要指出的是,本模型还有一些局限性。比如地铁数据仅包含公共交通卡数据,未包含使用单次地铁票乘车的旅客;出租车数据仅包含强生出租车公司数据,未包含其他出租车公司或快车、专车数据;未能取得目前已有机场巴士相关运营数据等等。

需要指出的是,这些数据上的局限使得我们开发的可视化工具存在未能完全反应公共交通需求全貌的风险。

如果能够解决这些问题,我们觉得,这样的模型当然是有其特定的社会价值。比如能够缓解机场交通难问题,消除航旅乘客痛点,提升上海城市形象,鼓励使用公共交通,倡导绿色出行等。

另外,这样的作品也具有潜在的商业价值。能够提升机场公共交通运营效率,缩短出租车空车等待时间,提高收益,节能减排,节省旅客行程时间,并且提升出行体验与效率。

希望在今后能够整合更多、更完整的数据,对这个模型加以完善。

注:以上内容根据黄依米、吴今回在数据侠线上实验室的演讲实录整理,文字有所调整。图片来自其现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。

DT君送福利:

作者 | 黄依米、吴今回

题图 | 视觉中国

▍数据侠门派

本文数据侠黄依米、吴今回,分别为邓韩贝信息技术咨询(上海)有限公司数据科学家、邓韩贝公司咨询经理,两人均为2017年度上海开放数据创新应用大赛(SODA)“种子奖”团队QuickPath成员。该团队其他参与成员还包括金驰君、莫绮雯、傅星宇、Surojit Dhar、Kush Chopra、邓玮君、范轶伦、华振等。

(数据侠黄依米)

(数据侠吴今回)

▍加入数据侠

本文来自企鹅号 - DT数据侠媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏EAWorld

六种不同的结对编程模式对比

作者:Erik Dietrich 译者:月满西楼 原题:Compare 6 Different Pair Programming Styles 专业编程领域...

2755
来自专栏大数据文摘

我们分析了1亿条阅读量超高的标题,这就是为什么你会被标题党吸引

1303
来自专栏新智元

【榜单】Github 深度学习框架最新排名:TensorFlow 第一,Keras 上升迅速

【新智元导读】Keras 作者 Francois Chollet 在 Twitter 更新消息,过去三个月以来,Keras 在新增贡献者、新问题、Fork、综合...

3256
来自专栏牛客网

美团点评实习生面试经历+转正面试

我是通过实习生转正拿到的美团点评offer,岗位为:美团外卖结算组的后端开发工程师(Java)。 实习生面试 美团点评的实习生招聘比较喜欢内推,没有网申和笔试的...

46513
来自专栏牛客网

ND(网龙)offer之路

写在前面:    先声明,本人不是一匹资深的老牛,只是在今年暑假的时候搜题目的时候刚好发现牛客网,发现名企题库挺全的(目前还没看到ND的题目,哈哈),刷了一个...

52512
来自专栏知晓程序

夏天就要出去浪!这 6 款小程序,帮你规划一场完美旅行

如何规划一次高质量的旅行?就让知晓程序(微信号 zxcx0101)见天推荐的这 6 款小程序来告诉你。

441
来自专栏程序员互动联盟

做C语言开发能拿多少钱?

一入程序深似海,小白一问大神我该如何学习C语言,一句话,小朋友你基础会了么?不会基础啥也别谈,麻溜的去学基础去。小白听了,的确学编程没有基础也是玩不转。你看都是...

4338
来自专栏编程一生

作为初级管理者必会的方法论和分析法

1345
来自专栏DT数据侠

怎样缓解机场“交通难”?这有一套大数据“治愈法”

无论乘飞机,还是赶高铁,公共交通如今依然是多数人的选择。但是常常遇到的排队、拥堵等问题,却让出行的体验大受影响。如何才能在出行中获得更好的体验?在12月27日的...

650
来自专栏生信宝典

你该知道的杂志分区和影响因子及2018最新影响因子下载

ISI每年出版JCR期刊引用报告 (Journal Citation Reports)评估期刊的影响力。

2856

扫码关注云+社区