在过去的两年,数据分析领域发了诸多变化。近期阅读了很多资料,尝试从行业、产品、技术等角度,谈谈自己的几点观察。供各位参考!
1. 行业趋势
数据分析行业近期发展,较之前有些显著的变化。下面是2019年12月10日的数据资产管理大会上,信通院发布的大数据产品能力评测结果。通过对比近几批次的评测结果,可对当前行业的变化有所发现。说明下其背景情况,中国信息通讯研究院(简称:信通院),会定期组织国内外数据库、大数据厂商针对数据领域的一些典型业务场景进行产品评估测试,拟在建立行业标准、促进生态发展等方面有所指引。
我将其总结为如下几个关键词:
2. 产品趋势
Hadoop生态,正面临越来越多的问题。一方面,来自于技术本身的冲击。Spark、Flink、ES甚至MongoDB、ClickHouse等,都在蚕食着传统Hadoop的市场。其各自的产品,尤其鲜明的特点,在某些领域非常适合。正如logo所显示的,Hadoop这头大象似乎转身乏力。另一方面,其生态环境也发生了变化。Hadoop领域免费午餐恐消失,大型技术公司普遍采用开源与自研两条腿走路的方式,应对不确定性。即使在商业化领域,两大巨头合并后的下滑,也为可能的商业模式蒙上阴影。
曾几何时,分析型数据库被打入冷宫。在原有单体数据库发展达到瓶颈点后,分布式分析型数据库扩展有限的情况下,大数据平台成为当时不二的选择。但经过多年的使用,大数据平台的各种弊端也逐步暴露出来。其复杂、多元、非标准、不统一的技术体系,对大多数公司来说门槛很高。但随着近些年来的发展,分布式分析型数据库正悄然间成熟起来。上图显示的H3C、华为、阿里云的产品,正不断突破规模的限制,其具备的处理能力已可以满足绝大多数企业客户的需求。这一领域的玩家不断增多,并以其友好的SQL接口,简易的入手难度,占据数据分析市场。可以说,分布式分析型数据库的春天来了。
从各产品发展来看,PG生态占据了大半壁江山。这主要是其完备的企业级特性和友好的开源协议所致。即使是自研部分,也尽量采用兼容开源的外部协议。在兼容开源的基础上,充分享受生态红利。而基于标准,也有利于互通互荣。
随着数据平台产品,在功能上逐步成熟完备、在性能上也不断突破。在下一阶段的产品发展中,数据管理逐渐成为热点。企业客户,已不再满足低层次的功能需求,而是提出了更高的要求。即原有能力,仅仅是满足的数据存储、计算的诉求,后续在挖掘数据价值、提供数据服务等方面提出要求。其强调更好的集成能力,集成包括数据质量、数据标准、数据模型、数据安全等诸多功能于统一平台;二是通过元数据、数据模型,来打通数据的全面管理;三是提供多样化的数据服务,进而将数据作为资产进行运营。上图,是DAMA组织的数据治理架构图,其功能域可见一二。
3. 技术趋势