前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析领域的几点观察

数据分析领域的几点观察

作者头像
用户5548425
发布2020-02-13 11:46:38
4920
发布2020-02-13 11:46:38
举报
文章被收录于专栏:韩锋频道韩锋频道

在过去的两年,数据分析领域发了诸多变化。近期阅读了很多资料,尝试从行业、产品、技术等角度,谈谈自己的几点观察。供各位参考!

1. 行业趋势

数据分析行业近期发展,较之前有些显著的变化。下面是2019年12月10日的数据资产管理大会上,信通院发布的大数据产品能力评测结果。通过对比近几批次的评测结果,可对当前行业的变化有所发现。说明下其背景情况,中国信息通讯研究院(简称:信通院),会定期组织国内外数据库、大数据厂商针对数据领域的一些典型业务场景进行产品评估测试,拟在建立行业标准、促进生态发展等方面有所指引。

我将其总结为如下几个关键词:

  • 规模化 随着大数据行业发展,越来越多的企业产品具备大规模部署应用能力。这也说明经过多年积累,大数据基础能力已逐步成熟。作为技术底座,未来的数据应用将有很好的底层支撑来满足日益增长的数据类需求。
  • 多元化 从近几年的测试产品来看,从初期的单一批处理平台,到批处理平台、分析型数据库、流式处理平台、时序数据库等。随着业务场景的多元化,底层技术平台也呈现多元化趋势。这也侧面印证了数据应用正在更多场景下落地。
  • 成熟度 在评测过程中,分为基础能力类和性能类。基础能力,更多是强调从功能层面满足需求。从提交评测的厂商产品来看,都以高通过率通过测试。这说明了多年积累后,功能性问题已经得到很好的解决。当然,这也会带来更高的要求。如何做到差异化,提升产品价值是摆在各厂商面前的核心问题。这点,后面还会谈到。
  • 高性能 作为更高的技术制高点,在满足基础能力之后,如何提供更大规模、更大处理能力的产品,是后续的要点。近些年来,已经有更多的厂商参与到性能测试中来,不断地刷新测试规模。其背后蕴含的处理能力,业务大规模数据业务的使用,做好了铺垫。

2. 产品趋势

  • Hadoop生态衰退

Hadoop生态,正面临越来越多的问题。一方面,来自于技术本身的冲击。Spark、Flink、ES甚至MongoDB、ClickHouse等,都在蚕食着传统Hadoop的市场。其各自的产品,尤其鲜明的特点,在某些领域非常适合。正如logo所显示的,Hadoop这头大象似乎转身乏力。另一方面,其生态环境也发生了变化。Hadoop领域免费午餐恐消失,大型技术公司普遍采用开源与自研两条腿走路的方式,应对不确定性。即使在商业化领域,两大巨头合并后的下滑,也为可能的商业模式蒙上阴影。

  • 分析型数据库的春天

曾几何时,分析型数据库被打入冷宫。在原有单体数据库发展达到瓶颈点后,分布式分析型数据库扩展有限的情况下,大数据平台成为当时不二的选择。但经过多年的使用,大数据平台的各种弊端也逐步暴露出来。其复杂、多元、非标准、不统一的技术体系,对大多数公司来说门槛很高。但随着近些年来的发展,分布式分析型数据库正悄然间成熟起来。上图显示的H3C、华为、阿里云的产品,正不断突破规模的限制,其具备的处理能力已可以满足绝大多数企业客户的需求。这一领域的玩家不断增多,并以其友好的SQL接口,简易的入手难度,占据数据分析市场。可以说,分布式分析型数据库的春天来了。

  • 开源与自研结合

从各产品发展来看,PG生态占据了大半壁江山。这主要是其完备的企业级特性和友好的开源协议所致。即使是自研部分,也尽量采用兼容开源的外部协议。在兼容开源的基础上,充分享受生态红利。而基于标准,也有利于互通互荣。

  • 数据管理渐成热点

随着数据平台产品,在功能上逐步成熟完备、在性能上也不断突破。在下一阶段的产品发展中,数据管理逐渐成为热点。企业客户,已不再满足低层次的功能需求,而是提出了更高的要求。即原有能力,仅仅是满足的数据存储、计算的诉求,后续在挖掘数据价值、提供数据服务等方面提出要求。其强调更好的集成能力,集成包括数据质量、数据标准、数据模型、数据安全等诸多功能于统一平台;二是通过元数据、数据模型,来打通数据的全面管理;三是提供多样化的数据服务,进而将数据作为资产进行运营。上图,是DAMA组织的数据治理架构图,其功能域可见一二。

3. 技术趋势

  • 算力:异构计算,统一接口 除了传统的结构化数据外,半/非结构化数据正不断被企业挖掘,进而计算产生价值。通过统一平台,提供多种异构计算能力,正成为对数据底层平台的基本要求。用户可按照统一的方式,去访问各类数据。
  • 流批:流批一体,相互融合 流式、批量处理需求,原为截然不同的两类场景,但现在正趋于融合。传统上的批处理,通过mini batch类方式提供近似流式的处理能力;或直接通过流式接口访问数据。流式处理平台,也通过其独有的计算方式,对加速批处理等场景,发挥更大的作用。
  • TA:事务与分析融合,HTAP渐热 单一数据源,不同业务场景,混合负载类型的处理,正成为一种趋势。用户不在需要将数据搬来搬去,可通过一个平台完成。这颇具吸引力,当然也要看到,目前这一趋势还在发展中,尚没有较为成熟的处理方案。部分厂商正在布局中。其实现原理,其实还是一个平台、两套存储、两个引擎方式实现,只不过存储对用户透明而已。
  • 模块:一站式数据能力复用平台 如前所说,真正为用户带来价值的是业务的提升。如何更好的使用数据,仅仅依靠存储+计算的基础能力是不够的,用户更为关心的是综合平台,可以一站式的方式使用好数据。
  • 云数:满足构建云原生数据产品能力 满足用户构建云原生产品的能力,其基础平台首先要满足云原生能力。即可提供弹性的存储、计算能力和完备的上下游云生态。基于这两点,用户才可以快速地构建自己的云原生产品能力。
  • 数智:人工智能与大数据融合 数据,是人工智能的基础;海量数据,为智能的提升提供了可能。与此同时,人工智能也为大数据高阶发展,提供助力。例如:通过人工智能对数据治理领域的很多问题,提供更好的算法辅助等等。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 韩锋频道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档