前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据编织与数据中台、数据湖、数据治理、DataOps的关系

数据编织与数据中台、数据湖、数据治理、DataOps的关系

作者头像
大数据学习与分享
发布2024-07-15 14:06:04
1030
发布2024-07-15 14:06:04
举报
文章被收录于专栏:大数据学习与分享

【摘要】“数据编织”一词高频出现,似乎已经进入落地阶段,本文介绍了数据编织产生的背景及其定义,详细分析了数据编织与数据中台、数据治理、DataOps的关系,以及未来数据编织发展的方向和需要关注的问题。

最近在日常的工作和跟客户的交流中,频繁谈及“数据编织”这个词,笔者开始关注数据编织是源于对主动式数据治理和数据编排的研究,从现在的趋势来看,数据编织显然已经进入落地阶段。数据编织正在从一个概念、一个理念向一线生产场景演进,正在加速产品化和实战化。其实数据编织不是一个特别新的词,Gartner在2022年的重要战略技术趋势报告里面,第三次把数据编织列为十大技术趋势之一。

一、数据编织产生的背景

首先我们来看一下在数据领域正在发生着哪些趋势性的变化。

1、数据成为核心生产要素,成为数字化转型不可或缺的重要元素。随着政策的加持,大家对数据要素重要性的认知也越来越充分,企业数据总量不断增加,但是数据孤岛的情况没从根本上得以解决,反而有变本加厉的趋势。

2、数据结构从结构化向多元化方向进一步演进。数据的内涵和外延都进一步发展,从单纯的结构化数据为主,向包含结构化、半结构化和非结构化数据在内的混合模式转移,数据采集、使用、管理的难度进一步加大。

3、从单纯关注数据应用到关注数据能力体系化建设。数据域的建设正在从单纯的以数据应用为核心,向体系化的数据服务能力建设转型,开始意识到数据管理和运营的不足,开始尝试数据服务能力平台化和体系化,开始探索改变数据治理“一乱一治”的被动局面。

4、数据运行环境呈现跨平台和融合化的趋势。随着企业上云开展和多云架构的广泛采纳,数据运行环境正在加速融入统一的云化基础设施中,数据采集、存储和分析正在从离线转向实时,对目前异构、泛在、智能的算力平台提出了更高的要求。

以上这些趋势性的变化,都是在实际生产中遇到的数据管理的难题和痛点,企业需要一种新的数据架构理念来应对在数据资产化进程中产生的复杂性、分布式、多元化等因素,于是数据编织出现了。

二、什么是数据编织?

对于数据编织的定义,业内尚且没有统一完整的表达。

Gartner给数据编织(Data Fabric) 的定义如下:Data Fabric is a design concept that serves as an integrated layer of data and connecting processes.数据编织是一个设计概念,表示数据和连接进程的集成层。

从以上的定义可以看出,Gartner首先认为数据编织不是一种技术,而是一种设计理念或者叫一种架构理念,然后认为数据编织是一种跨平台的数据整合手段,同时具备数据和连接两个核心概念,数据既是编织的对象又是业务的表征,连接既是实体的数据获取工具也是屏蔽复杂性的手段。

整体来看,Data Fabric是利用AI、机器学习和数据科学等技术手段,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。业内有一句通俗的解读:现在的数据层的架构设计还主要是“人找数据”,而Data Fabric设计核心是“数据找人”,在合适的时间、将合适的数据推送给需要的人。是不是有点豁然开朗的感觉。

Gartner认为,数据编织的核心是充当数据和连接的集成层。数据编织利用对现有、可发现(未知)的元数据资产的持续和动态分析,以支持异构、泛在、智能的多云化的基础设施和数据服务全生命周期的持续打造。

Gartner给出的数据编织的典型结构,自下而上分为5个层次,分别是:

数据源层:数据编织可以连接各种数据源。这些资源包括存在于企业内部的各类数据源,同时也可以接入公共可用的数据资源。同时,除了结构化数据以外,还包括相关的非结构化数据。但是要注意,这提到的是连接和整合,不是采集和提取。

数据目录层:与传统人工编目不同,数据编织强调采用新技术(语义分析、知识图谱、主动元数据管理和嵌入式机器学习 (ML)等等)自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。

知识图谱层:数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。

数据集成层:集成和整合是数据编织的核心,数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。

数据消费层:数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。

数据编织使用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。

结论:数据编织是一种数据架构理念(而非一组特定的工具),其通过提供一种统一的方法来管理异构数据工具链,其能够将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。

三、数据中台

数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。

通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构建数据生产—消费—再生的闭环

数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。

数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。

1.1 帮助企业建立数据标准

在有数据中台之前,企业基本不会有全局的数据标准,即使有相关的数据标准,由于没有数据中台这个实体形态,数据标准也无从执行。

数据中台的建设天然会帮助企业建设数据标准,包括数据建设规范和数据消费规范。数据建设规范有诸如数据接入规范、数据建模规范、数据存储规范和数据安全规范等,数据消费规范包含数据权限规范、数据调用规范以及数据销毁规范等。

这些标准都是建设数据中台时必须建立起来并依托数据中台去执行和落地的。

1.2 促进中台组织形成

再宏伟的企业战略规划,都离不开一套科学合理的组织去落地执行。

数据中台建设将是企业宏观战略规划的一个重要部分,那么在践行数据中台建设的过程中,摆在企业第一位的问题就是如何搭建起一套能稳定护航数据中台建设及运营的数据中台班子。

数据中台这种体系化工程将横向拉通企业数据相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据资产管理团队、数据运营团队等,组成标准的企业数据委员会,从而形成企业真正的中台组织。

需要说明的是,中台组织可以是一个横跨各个业务部门的弱矩阵组织,也可以是一个完整的实体组织。这需要因地制宜,因企业不同而异。

1.3 全面赋能业务,促使降本增效

数据中台的终极价值是降本增效,无论是建设数据标准还是形成中台组织,其核心目标都是帮助企业达成战略规划。

通过数据中台,可以更加合理地布局团队;数据从加工生产到使用的整个时间周期将大大缩短;以中台之力拉通整合企业营销、交易、服务、库存、物流等一方数据,结合二方及三方数据,以全局视角,形成强大的数据资产,滋养各业务板块。

同时有目的性地针对场景,设计出赋能场景的数据应用,帮助其从研、产、销等多个方面缩短产品研发周期,生产未来一段时间畅销的产品,精准找到愿意购买公司产品的群体,以至于增强用户对企业产品及服务的友好体验,提高用户对于企业品牌的忠诚度,降低企业运营过程中的损耗,压缩供应链端的周期等。 详见:51页PPT | 企业数据中台介绍及建设方案

结论:数据中台是一个综合性的数据应用解决方案,指的是将组织内各个业务部门的数据整合到一个统一的平台中,以提供数据共享和协作。数据中台旨在构建一个数据驱动的组织,通过整合数据资源,实现数据的可视化、分析和应用。

四、数据治理

数据治理体系内容从两个维度来看:

1)数据治理难点痛点:数据脉络不清晰、数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、开放形式不完善。

2)数据治理5个核心:理、聚、管、治、用。

数据治理体系主要包含内容有数据标准、元数据、数据建模、数据集成、数据生命周期、数据质量、数据开放、数据安全及数据应用。

详见:35页PPT读懂DAMA-DMBOK2.0数据管理知识体系指南核心精要

结论:数据治理是一套策略、流程和技术,用于确保数据的合规性、质量和安全性。数据治理涉及数据的定义、分类、标准化、数据主人的定义和责任分配、数据访问控制等方面。数据治理的目标是确保数据可信度和可用性,促进数据驱动决策和业务价值的实现。

五、DataOps

DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps 强调的是数据应用的开发和运维效率,就像DevOps 一样,DataOps 希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。

结论:DataOps是一种工程方法论和一套实践方法,旨在快速、可靠、可重复、持续地交付生产就绪数据以及运营就绪分析和数据科学模型。DataOps 通过支持数据版本控制、数据转换、数据血缘和分析模型的工程学科来增强和推进数据治理。DataOps提供敏态数据开发支撑,优化数据生产者和数据消费者协作效率。

六、各种概念对比

1、数据编织 VS 数据中台

数据中台是由相关技术组件组成的一个综合性的解决方案,重点是提供面向应用的数据标签、数据目录、数据分析、模型算法服务等各类数据服务。而数据编织更侧重实现异构融合多样的数据资产服务,强调自动化的集成和智能数据编排。

数据中台是一个“让数据用起来”的方法论,不仅包含数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和流程、运营机制和考核办法等。而数据编织一开始就强调新技术的应用,例如:机器学习、人工智能、知识图谱等,且构建和管理知识图谱是其核心支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构),数据编织的技术色彩更浓一些。

2、数据编织 VS 数据集成

数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。

数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴。

3、数据编织 VS 数据湖

数据湖只是数据编织的异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),数据编织将应用程序与数据湖(或者数据仓库等)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。

4、数据编织 VS 数据治理

在传统的数据治理体系中是没有包含数据编织的,但数据编织是一种数据管理的全新架构,是自动化、智能化数据治理的一个理想解决方案,从数据架构层面增强了企业数据管理的能力,是传统数据治理的重要补充。

5、数据编织 VS DataOps

DataOps是将数据编织真正落地一个重要的推动者。DataOps 的数据流程模型、工具和数据洞察与用户数据需求之间存在密切的联系,该模型与数据编织的架构具有共生关系,DataOps 数据流程模型和思维模式是数据编织落地的核心关键。

总的来说,这些概念之间存在一定的关联和重叠。数据编织可以看作是数据中台和DataOps的结合,它关注数据整合和数据流程的灵活性和效率。数据治理则是数据编织和数据中台的基础,通过确保数据质量和合规性,为数据编织和数据中台提供可信的基础。DataOps可以在数据编织和数据中台中发挥重要作用,通过自动化和持续交付的方式加速数据处理和数据产品的交付。因此,这些概念通常是相互关联和相互支持的,共同构建一个数据驱动的组织。

七、数据编织将如何发展?

Data Fabric是近两年在国外备受追捧的概念,而在国内刚刚起步。之前IT技术从概念到落地大概需要10年左右的时间,近些年这个时间已经大大缩短。可以预见的是,Data Fabric在国内也将被越来越多的企业用于解决数据资产多样性、分散性、规模化和复杂性不断增加以及数据使用人群和应用场景爆发式增长带来的一系列问题。

这个过程中,依然有一些可以预见的问题,需要我们去重视。

1、回归数据资源化和服务化的本源

数据编织在落地过程中,还是要回归数据资产化和服务化这一初衷,不要把多元数据的动态管理演变成了打造另外一个数据湖。除了资产化和服务化,更要关注平台化,要注意数据集成,动态的数据集成。强调组件之间的互操作性,通过API和SDK实现集成层、无缝数据传输以及自动数据洞察的获取。

2、依托统一的异构泛在的智能基础设施

数据编织千万不能走烟囱式IT建设的老路,必须面向企业复杂的数据环境提供集成整合能力,克服异构泛在的云化基础设施带来的挑战。依托数据编织,根据不断变化的技术和业务需求,自由地从一系列混合 IT 基础架构资源中运行关键的数据业务。

3、关注与物联网和边缘计算的深度融合

边缘计算专为支持物联网实施而构建,它是将与数据相关的关键任务从集中式应用程序转移到一个单独的边缘层,该边缘层是分布式的,但与数据编织紧密相连。通过使数据编织适配边缘计算,企业可以从其物联网设备中获得更多数据价值。

数据编织的初衷是实现泛在的数据资产化和自动编排,这其中物联网和端侧数据是必须要充分考虑的重要场景,从目前趋势来看,部分关键数据任务一定会从集中式的算力中心下沉到边缘计算节点。数据编织必须实现与边缘计算的深度融合,以便实现更范围的数据资产化,获取更大的数据价值。

写在最后的话

从国内的行业现状来看,国内还没有真正意义上的成熟的Data Fabric。究其原因,是跟国内厂商在数据领域的布局有关,国内数据厂商大多分布在数据库和数据分析等领域,在数据整合和治理领域相对薄弱。在国外的实践来看,Data Fabric比较活跃的是从事数据整合和数据虚拟化的公司。

总的来说,Data Fabric作为一个新兴的概念,还需进一步的成熟和完善,但是窗口期不会太久。

免责声明:本公众号所发布的文章为本公众号原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接联系后台,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据学习与分享 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档