关于“新晋网红”数据湖,听听大飞机数据管理总师怎么说?

至若春和景明,波澜不惊,

上下天光,一碧万顷;

沙鸥翔集,锦鳞游泳;

岸芷汀兰,郁郁青青。

古今中外,描写“湖”的优美诗句不绝于耳。湖的魅力,在于她是一个独立而又自恰的生态系统。正如范仲淹描绘的,丰富多样的资源绕湖水汇集,却能融合成一幅和谐的画面,带来赏心悦目的体验。

因此,当数据科学家以“数据湖”来命名一种全新数据体系架构时,它不仅生动贴切易于理解,而且迅速“蹿红”。

从半个世纪前诞生的数据库说起

50多年前的人们还在为如何方便可靠地管理、操作或查询日益增长的软件数据而烦恼,他们提出并尝试了各种基于不同设计结构的数据库软件:树形结构、网状结构、关系表结构等等。直至上世纪80年代,关系型数据库(即以关系表形式存储数据)因其很好地满足当时占大多数的OLTP(On-line Transaction Processing, 即面向“增删改查”的处理)类型的需求而逐渐成为主流。

有趣的是,时至今日,人们的注意力早已从OLTP转向OLAP(On-line Analysis Process,即面向统计分析的处理),甚至走得更远,因此关系型数据库的统治地位正在动摇,而网络型、分布式文件的数据库架构又重新活跃起来,当然,这是后话。

随着OLTP类型系统的大量建设,关系型数据库愈发重要。到上世纪90年代,逐渐成为重要度仅次于基本操作系统的基础软件之一,其中的主要代表Oracle公司也因此成为世界上仅次于微软公司的第二大软件厂商。面对市场竞争,微软公司很快推出了自己的数据库软件SQL Server,再加上IBM公司的DB2,一时间,仿佛没有一款重磅数据库产品的网络公司都不好意思称自己为“软件大厂商”。

数据仓库应运而生

数据库系统适用于OLTP型需求,比如企业中的人力资源系统,有新员工入职就会在数据库中增加一条记录。OLTP帮助企业执行层提高工作效率,而OLAP则能够为企业管理层提供支持。

举一个人们体检的例子,一份体检报告固然能够提醒大家在某些方面存在指标异常,但是如果能够通过对比历年数据,则可以作出更加精准、深度的判断,发现更为隐蔽的潜在风险。若再能够对这些数据按主题分类的方式进行重组织和预处理,则可以为分析某些病症带来便利。比如,将体重、血压、心率等历史数据组织汇总,有助于分析心血管方面的疾病,将血压、肌酐、血尿酸等历史数据组织汇总,则有助于判断肾功能状况走势。

这种组织汇总数据的方式,反映整个历史变化(Time Variant)、面向主题的(Subject Oriented)、集成的(Integrated)以及因为通常不轻易删除数据而相对稳定的(Non-Volatile)的数据存储方式,就是数据仓库(Data Warehouse)。

正当数据仓库逐渐走向人生巅峰,数据分析进入更多企业视野之时,开启日后新时代的“新星”出现了。

大数据降临

关于大数据的特征,有3V、4V、5V等多个版本,我们在此介绍没有争议的3个V,即Volume(规模)、Voraity(多样性)、Velocity(速度)。如下图所示,互联网的发展,使得人类数据资产急速增长,将非结构化数据(音频、视频等)纳入分析范畴,极大丰富了数据资源的种类,而数据处理技术的突破即便是大数据,也可以实现实时级别的响应速度。

聊到big data,就不得不提它的标志性技术:Hadoop,即分布式系统基础架构。它由来源Google的两个技术HDFS(分布式文件系统)和Map Reduce(一种分布式计算模型)组成。笼统地讲,它们一个解决了大规模数据存储的问题,另一个解决了大规模数据计算的问题,可以称之为打开大数据之门的一把钥匙。沿着Hadoop的道路,如今的大数据技术已经越走越远。

有趣的是,或许正是来源大数据的“启蒙”,“3V”不仅仅是大数据的特征,也逐渐成为人们对于数据分析的期望和需求,而这些,显然都是数据仓库无能为力的。尤其是面对“响应及时性”要求,在大数据时代,逐渐呈现出两极分化的趋势:完全实时,或离线进行超大规模分析计算。而数据仓库的预置模型策略,既不能保证在大量数据下的实时性,又无法承受超大规模的数据。

今日主角:数据湖

大数据的出现,传统的OLAP需求并没有被完全摈弃,而正因为大数据蓬勃发展的多元化数据应用,大大扩展了OLAP的内涵和外延。

在这样的背景下,针对企业级数据平台的架构便可诞生诸多新理念:

在我看不见的地方,它能够不断地完成数据资源的汇集和更新

不同类型的数据,应当保留他们的原始状态,而不进行过多的预处理或建模

不同类型的数据,不需要在任何格式、框架的限制下而和谐共处

在界面之上,呈现在我面前的,应该是一致的、友好的、简洁的交互体验

我应该可以构建丰富的数据应用,从而形成良好的生态

而以上这些要素正是“湖”的特征。因此,Pentaho的CTO James Dixon 在2011年提出了“Data Lake”的概念。在面对大数据挑战时,他声称,不要想着数据的“仓库”概念,想想数据 的“湖”概念。数据“仓库”概念和数据“湖”概念的重大区别是:数据仓库中数据在进入仓库之前需要是事先归类,以便于未来的分析。这在OLAP时代很常见,但是对于离线分析却没有任何意义,不如把大量的原始数据暂时保存下来,而现在廉价的存储提供了这个可能。

Dixon这番言论,为了护送“数据湖”C位出道,不惜Diss数据仓库,但是细细想来,却并不是简单地用数据湖来取代数据仓库。企业,尤其是传统企业,面对大数据的挑战,一个重要的课题就是,如何在应用大数据先进技术的同时,尽可能不使原有在数据仓库和商务智能的投资浪费,且避免做过多的迁移和集成。数据湖的理念能迅速被企业接受,很重要的原因就是它既然能兼容各种类型的数据,自然也就包括数据仓库,它既然能支持各种形式的应用,自然也就包括传统的OLAP的应用。

数据湖的另一大提升在于其提供服务的统一、简洁和友好。数据湖是大数据时代的产物,也是互联网时代的产物,因此同样重视终端用户体验。这意味着有了数据湖,企业中的能够利用数据资源的群体将从传统掌握专业数据库技术也了解数据模型结构的少数人员,扩展至一般业务人员。这不仅仅能够解放数据分析专业人员于繁琐的业务报表的开发,更重要的是使业务专业领域更为深刻的洞察成为可能。

COMAC & Digital

经过十余年的建设,虽然尚有诸多不完善之处,但是中国商飞公司已经建立起一套以PLM、ERP、MES和CMOS四大平台为核心的信息系统集群。这些信息系统的数据库数据,基本涵盖了公司绝大部分核心的结构化数据。

在此基础之上,2012年开始建设的公司统一数据仓库和商务智能平台,也完成了对上述四大平台及其它外围系统业务数据的抽取和整合建模,提供统一的报表、仪表盘和应用分析的数据服务。

然而,大量试验试飞、客户服务数据,众多诸如三维数模、企业文档和内部网页的非结构化数据以及来自制造产线的设备监控数据,这些数据不仅尚未纳入管控,其规模和格式类型也恐怕不是数据仓库可以承载的。而谁也不可否认,这些数据资产,同样蕴含着对公司而言巨大的价值,甚至超过现有的结构化数据。这也正是大数据技术存在的价值。

中国商飞数据管理中心

正在积极筹划大飞机“数据湖”建设

“迁客骚人,多汇于此”

期待在不久的将来

你我“湖畔”相会

文/胡盛行 帅 浩

图/信息化中心 网 络

责任编辑/吴 頔

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181113B219D700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券