对话东航数据实验室王学武:打造爆款速胜产品,为数据找到立足之地

大数据文摘作品,转载要求见文末

大数据文摘记者 | 魏子敏

*本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。

“数据实验室不是科研组织,我们要的是成果落地。”

中国东方航空数据实验室负责人王学武非常明确数据的价值所在,“科研成果变为劳动生产力需要有很长的路要走。而我们要的就是分析成果的落地,要的就是全面铺开,释放数据的潜能,通过数字化推动业务的提升。”

隶属东方航空客运营销委员会和东航信息部,东航数据实验室经过一年筹备,于2017年初正式成立。

变现大数据资产的价值,推动业务价值提升,后期甚至可以孵化新的项目出来,尽管刚刚出现不到一年,王学武对这一筹备许久终于上马的项目充满了想象力。

而当把航空这一与用户贴合紧密的领域与大数据放在一起,也确实可以产生很多新的碰撞场景。

数据实验室不是随便建起来的拍脑袋工程,在其正式成立之前,王学武和同事花费了大量的时间与公司高层、与目标用户进行沟通。他很明确的告诉大数据文摘记者,首先,从公司战略需求层面考虑,一个公司需要从战略上明确,为什么需要到数据实验平台?将会起到什么作用?再从高级分析用户层面考虑,数据实验室是否能解决他们现有数据分析的难点和痛点?有没有一个明确的业务场景,能够推动他们在数据实验平台作尝试?

“用的顺手”是让大家“真正用起来”的关键

“大家都在上(数据团队/项目),但到底能做什么?具体做什么?其实很多都还不知道。但是别人都在做,你没做的话就像土八路了。”王学武说。

数据实验室是适应东航数据分析发展的产物。如何让分析人员在实验室真正创造价值,把数据探索、数据挖掘、数据可视化等工具用起来,却不容易。对此,王学武认为,“对数据的价值有非常清晰的定位,让大家用的顺手”是让产品“真正被用起来”的关键。

基本的出发点有了,团队在着手做事情前,要有非常明确的目标和清晰的商业诉求,能清楚地描述给来自各领域的联合数据分析团队成员,统一目标,并制定合理的计划。

数据实验过程是一个持续探索、持续迭代的过程。不仅是对分析成果进行迭代,也对工作方式和流程进行优化。

“最重要一点,我们会针对不同类型的分析成果,制定它们的量化规则,量化通过模型所产生的经济收益、生产效率的提升幅度或其他考核指标,以此量化数据分析的价值。”这也是数据驱动文化真正建立起来的重要步骤。

王学武称东航建立数据实验室没有现成的经验可参考,需要进行很多创新尝试。实验室前期筹建阶段,也是一个推广的阶段,“我们经常与用户进行头脑风暴,一是能让用户更深入了解数据实验平台,了解相关技术和机器学习概念,二是我们能了解用户的痛点,与用户一起构思大数据应用场景。定期对各部门的核心分析人员进行数据挖掘知识和技术培训,以及统计学等方面知识培训,形成很好的学习气氛。”

合作各方,先打造几款爆款产品“速胜”

“燃油是航空公司高层例会上最大的敏感词,只要你提到【可以降低燃油能耗】,你就能看到,大家会立刻提起兴趣。”王学武玩笑着说出了这个航空公司的大难题。

和很多数据团队一样,在成立之初,王学武的团队面临着如何让高层和业务团队看到自身价值的问题,这时候,打造一款“爆款”产品,让各合作方看到数据的价值十分重要。“燃油效率分析”是其中一个这样的课题。

油价是航空公司最大的变动成本项,航空公司急需通过控制油耗来降低运营成本。但是,与实际油耗相关的属性有70多个,逐个去分析它们的相关性,很耗时,容易出错。而且需要有很好的业务知识支持。

东航数据实验室就此通过Oracle BDA解析QAR数据,准备打造了一款针对燃油效率分析的产品;分析发动机寿命,预测可能出现故障的设备。通过平台提供的工具,即便在不是很熟悉业务的情况下,也能很方便快速地发现一些问题:

首先,用户在数据列表找到自己所需的数据,将它们导入个人数据沙箱;

然后,利用实验室的数据发现工具,浏览数据状况,剔除数据质量不高的属性。属性由原来的70多个减少到60个;

再按与实际油耗的相关程度进行排序,与油耗相关程度越高的就排在越前面,这样就可以很快地发现那些是相关程度最高的属性。比如:飞行距离、最大业载、机型、最大起飞重量、实际业载、发动机型号等;

再进一步,挑选几个需要分析的属性,可以看到它们与实际油耗的相关系数和图形化的分布情况。为后续深入分析指引方向。

航空领域天然拥有不少数据。而提到飞行,除了油耗,多数乘客首先想到的应该都是黑匣子中记录下的数据。其实,飞机飞行数据的记录时刻都在进行,比如飞机快速存取记录器(下称QAR)记录的数据,通过遍布飞机全身的数千个传感器,记录飞机在飞行时的品质、安全等参数,是辅助飞行员养成良好飞行习惯的必需品。

QAR可实时记录飞行员自飞机仓门关闭、爬行、攀升、渐进到降落的整个航程的操作行为和发动机状态的数据。这个数据量很大,每年将产生100T的数据量。

通过飞机上的传感器,东航可以获取每个飞行员从起飞到降落的所有操作行为,以及发动机的损耗,气象资料等数据,利用大数据建立模型分析,找出飞行员日常操作和飞行潜在风险因素,提升安全水平,并可以有针对性地加强飞行员培训,为其养成良好的操作习惯,纠正飞行员有时候出现的不规则的操作手动,减少因操作不当造成的飞机发动机损耗等问题,也会给飞行员提供更节省燃油的飞行建议,比如,在不同的机型、风力、高度、航道的拥堵等情况,给出建议的飞行速度。

东航数据实验室技术架构探索:基于Oracle BDA解析QAR数据

如此高量级的数据存储分析需求也对东方航空的数据架构提出了更高的要求。

东航数据实验室利用Oracle BDA的12个节点所提供强大的计算能力和网络传输能力来处理来自营销、运行、机务、物流、地服、电商、呼叫中心等业务领域的海量数据,并将处理好的结果数据供数据实验室使用。

东航是基于旅客出行的全流程来建立数据分析体系。在旅客的航前、航中、航后环节,建立相应应用系统,增加和旅客的业务接触点,通过“以客户为中心”的服务理念,为客户提供全方位的出行服务。并在每个环节都有相应的运营系统作支撑。

数据实验室通过一套流程去促进业务提升。从上图可以看出,整个流程分为执行层面和创新层面。实验室是其中的一部分,数据流通过前端应用的客户接触点进入到数据平台,数据实验室从数据平台获得数据,进行分析,得到成果,通过规则引擎、数据产品等方式发布到应用前端,促进业务效率提升。

数据实验室有个优点就是数据实验环境与业务生产环境是相互隔离的。数据实验室通过ETL把BDA、Teradata、Exadata、Greenplum的数据抽取到实验室数据存储区,用户直接操作的是实验室数据存储区的数据,即便用户在实验环境进行大数据量操作时,也不会对现有的生产系统产生影响。

应用架构分为生产环境和实验环境两部分。实验存储区通过ETL从数据平台抽取数据,再整合用户上传的数据、各主题数据、参数数据和实验成果等数据。用户在数据沙箱获取这些数据,再利用前端工具使用数据。目前,实验存储区使用私有云Hadoop集群,未来也会考虑向公有云扩展。

信息化是企业开启数据化的第一步

东航在2014年就开始布局大数据战略,时任东航CIO蔡阳先生带领着信息部各产品部成立了BICC商业智能竞争力中心,进行数据,技术和思维的专题研究,定期交流成果。围绕着这三方面,东航数据实验室讨论了很多主题,从云计算,大数据技术,数据价值链,产品路线图,算法,再到一张机票后面的二维码,都在讨论范围内。经过了1年多的场景探索,最终基本确定了营销,服务和运行这三大领域的业务目标。

在很多传统企业,信息化都是企业开启数据化的第一步,数据团队在进行数据分析、洞察、打造爆款产品之前,需要先整合企业内部数据,进而不断引入结构化和非结构化的外部数据,并通过数据管理,提升数据质量,统一数据标准。

“信息化之后,数据在东航发挥着越来越核心的作用,航空业的数字化业态逐渐形成。我们信息部和各业务部门紧密联系在一起,共同攻关克难,所收获的成果、经验与教训,这都将为建设数字化东航打下基础。”王学武说。

王学武坦言,随着分析用户的水平越来越高,在使用数据分析系统时,也遇到了很多痛点和难点,阻碍他们进一步去分析数据。比如:

A.用户在进行大数据量查询与计算时,会直接对生产系统的性能产生影响;

B.实现用户的分析需求,需要业务与技术来回沟通,周期较长;

C.随着用户分析能力提高,用户使用数据的局限性也越来越明显,他们迫切需要一个能自主,自助进行数据分析的平台,且有很多易用的工具选择;

D.用户希望能有一个快速定位问题、快速试错的平台,从而降低决策和投资的风险;

E.他们想获得更多的数据,而不限于自己部门的;

F.要打破公司内各领域间的数据孤岛问题,能让数据流动起来;

G.现在课题的攻关难度比以往更大,需要多领域的专家一起解决,这就需要一种创新的协作方式,有效衔接业务、技术、学科等领域的专家;

H.从应用数据的角度来看,用户希望能“看得懂、拿得到、做得了事情”,即用户能知道有什么数据?它的质量怎么样?适不适用?通过什么渠道可以拿到这些数据?通过哪些合适的工具去分析这些数据?从而产出一定成果。

为了解决这些问题,数据实验室应运而生。

数据实验室有4个核心理念:

开放:实验室是开放的大数据实验平台,用户拥有最大程度的灵活性与自由度去使用数据;

连接:连接人、数据和分析算法,以及能在不同的人之间,不同的数据之间,不同的算法之间建立连接。这些连接会形成一种合力,能有效地解决课题研究的难点;

融合:数据融合、数据流动、数据活力。通过跨领域的数据融合,可以发现各领域之间的相关性,联动性,通过有效的协调,提高整体的竞争力;

生产力:数据驱动、数据产品,分析成果与生产应用的紧密结合,促进价值提升。

数据人才建议:应该以明确清晰的商业目标为导向

现阶段,数据实验室成员来自信息部数据产品部、营销委的网络收益部和客户关系部,以及其他部门的分析团队,共30多人。主要由具体作数据分析和实施课题的人员组成,公司领导为实验室明确战略方向和协调资源。成员包括业务部高级经理、统计学博士、业务专家、市场研究、产品规划、产品经理、技术架构师、大数据工程师、高级数据分析等。

王学武对于数据人才的培养也给出了自己的建议:“以明确的、清晰的商业目标为导向,通过在作课题和项目的过程中,培养具有复合能力的数据科学人才。定期举行技术、业务培训和知识分享。发挥企业内社区的作用,提升成员的认同感与成就感,进而提升参与度。在工作中,计算机科学、数据可视化、业务分析、运筹、统计等角色的成员之间要保持紧密的沟通,在不断提升自己领域的专业水平,以更好对外提供支持的同时,还要学习其他领域的知识和技能,建立一个良好的学习共进氛围,让成员具备更多的能力维度。

经常带着商业问题,在数据中去探索,去验证自己的想法。这数据发现的过程,会很有意思,很有趣,会逐渐理解数据,以及数据之间的关系,加快掌握业务知识。注意在课题和项目的实施过程中作总结和积累经验,失败的或成功的经验都是非常有价值的,最后,套一句互联网思维的话,懂得分享,才更有价值。”

数据驱动时代,数据团队作为一家公司的核心竞争力所在,正在受到越来越多关注,行业、公司间数据化程度的你追我赶,也俨然一场数据军备竞赛。目前,相对公司中的财务、运营等已经规模化的组成,数据团队还是不少公司可有可无的部分,即使是一些已经建立了独立数据团队的公司,其运作方式以及与其他团队的协作仍然处于探索阶段。

我的公司是否需要有独立的数据团队?

我该何时、怎么样建设自己的数据团队?

数据团队的价值如何衡量?

数据团队需要具备哪些技能和知识?

为了探索海内外数据团队建设现状,我们发起针对数据行业从业团队和数据人才的调研而产生的结论性、趋势性的《顶级数据团队建设全景报告》。《报告》历时3个月,囊括十余位海内外业界大咖深度访谈、五万余条海内外网络数据分析和千余份调查问卷内容而成。我们将在7月11日重磅发布调研结果。发布会当日,除了报告完整版发布,还将邀请业界与学界多位重磅嘉宾,共话数据团队建设的心得与数据人才培养方案。本次调研将对国内外数据团队发展现状进行盘点和趋势预测,同时探索数据团队应如何建设。

时间:7月11日 下午13:30-17:00

地点:清华大学FIT楼多功能厅

草拟议程:

13:30-14:00 来宾签到

14:00-14:05 主持人开场并介绍来宾

14:05-14:15 领导致辞:数据科学研究院执行副院长 韩亦舜

14:15-14:30 报告发布:顶级数据团队建设全景报告 大数据文摘创始人 汪德诚

14:30-14:50 Keynote:猎聘 CDO 单艺,大数据人才现状解读

14:50-15:10 Keynote:GrowingIO CEO&创始人 张溪梦,数据团队建设的实践(拟邀)

15:10-16:30 高端对话:数据人才和数据团队打造

数据科学研究院副院长 王建民(拟邀)

GrowingIO CEO&创始人 张溪梦(拟邀)

猎聘 CDO 单艺

交通运输部科学研究院 叶劲松

北京邮电大学移动互联网开放创新实验室副主任谭茗洲

《数据团队建设全景报告》系列专访往期回顾:

生产全国交通大数据的团队如何运作?对话交通运输部科学研究院叶劲松

对话吴甘沙:强技术驱动公司如何建设数据团队?你得先抢来一位技术大牛

对话猎聘CDO单艺:数据人才困局还需要大数据应对

【独家专访】揭秘LinkedIn总部数据科学战队:技术强者常有,顶级团队胜在软实力

【独家专访】微软郑宇:这个时代不缺数据,缺的是开放的思维

对话Capital One纽约总部数据中心负责人:构建中央数据团队与业务部门的良性生态

我的公司是否需要有独立的数据团队?

我该何时、怎么样建设自己的数据团队?

数据团队的价值如何衡量?

数据团队需要具备哪些技能和知识?

《数据团队建设全景报告》系列专访

数据驱动时代,数据团队作为一家公司的核心竞争力所在,正在受到越来越多高管、从业者和投资人的关注。而目前,相对公司中的财务、运营等已经规模化的组成,数据团队还是不少公司可有可无的部分,即使是一些已经建立了独立数据团队的公司,其运作方式以及与其他团队的协作仍然处于探索阶段。

为了探索数据团队建设现状,清华-青岛数据科学研究院联合大数据文摘,发起了一次数据团队全行业调研。本次调研将对国内外数据团队发展现状进行盘点和趋势预测,同时探索数据团队应如何建设。我们将结合一系列专访与调查问卷内容,在7月初发布《数据团队建设全景报告》。

联系邮箱:zz@bigdatadigest.cn

关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-07-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构之美

如何成为一个有情怀的工程师?

13130
来自专栏罗超频道

内容之争,新媒体的暗涌

罗超为钛媒体、爱科技网撰稿,2013年6月20日发表于首页。 今天腾讯《大家》的一则关于文章侵权的声明在新媒体圈掀起了波澜。《大家》是腾讯的一个中文阅读品牌,或...

32950
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(3)-CRM

那我们就废话少说,先从CRM开始。 CRM软件最早是Oracle(美国的一家软件巨头)公司的几个工程师出来创办的Siebel公司开发的软件产品,据说当年Orac...

33240
来自专栏罗超频道

微博视听节目服务被叫停,内容平台的品质之争才刚开始?

今天广电总局要求新浪微博、ACFUN等关停视听节目服务,这一通知一出,微博股价盘前大跌7.43%,市值蒸发12亿美金。 ? 不过即便如此,微博市值依然超过150...

36890
来自专栏携程技术中心

沙龙报名 | 云海机器学习Meetup,5月6日上海

13130
来自专栏罗超频道

当你们在用算法获取流量和金钱时,微博和知乎是这样做的

昨天,我的一条微博创造了自2010年注册以来的记录:阅读量超过1000万,且还在继续增长——然而我的微博粉丝,却只有1万人,出现这样的情况,是因为微博的Time...

34860
来自专栏CDA数据分析师

「专访」云幕后创始人王武佳:能对决策产生影响的数据分析才是有意义的数据分析

作者 CDA 数据分析师 『写在前面』 “每个人都需要具备数据分析能力”当被问及对数据分析的理解时,王武佳老师这样说到。 『人物介绍』 云幕后创始人 王武佳 ...

254100
来自专栏新智元

【清华AI公开课】景鲲:百度为什么重视语音?

26030
来自专栏罗超频道

网易掀起泛资讯直播大战,百播大战进入淘汰赛

7月底,我在《不需要网红的资讯直播》一文中断言直播会成为各大新闻客户端标配。昨天,网易的一场发布会印证了我的预判,其高调发布“天网计划”进军泛资讯直播,将从自制...

28930
来自专栏java一日一条

从学生到游戏开发者: 我学到的五件事

Gamelook报道过三年前,我参加了一个游戏研发课程,在此之前我从来没有学过编程。现在,我非常自豪地成为了Failbetter Games工作室的一名开发者。...

6210

扫码关注云+社区

领取腾讯云代金券