首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一文讲解数据治理中的关键要素,从数据资源到数据产品,从数据产品到数据资产

一文讲解数据治理中的关键要素,从数据资源到数据产品,从数据产品到数据资产

作者头像
人月聊IT
发布2025-11-17 09:54:31
发布2025-11-17 09:54:31
420
举报
图片
图片

大家好,我是人月聊IT。今天继续聊数据治理里面的一些关键要素,并对里面的一些关键概念进一步解释和说明。并做一些和数据治理相关书籍的重点推荐。

数据治理的基本概念

在这里我不准备搬运业界对数据治理的一些标准定义。简单来理解,数据治理就是为了让我们更好的用数据,管数据,让数据进一步发挥价值所进行的一系列的数据管理活动和制定的一系列数据管控规范标准流程体系。

对于数据治理体系规范当前谈得最多的就是DCMM数据成熟度模型和DAMA数据治理体系规范。因此一般来讲,数据治理包括了数据战略、数据管理(数据架构、时序数据管理、主数据管理、指标数据管理、元数据管理、数据质量管理、数据安全管理)、数据运营(数据确权、数据需求、数据服务、数据评估审计等)、数据流通(数据产品、数据交易、数据价值等)等一系列数据管理活动的集合。

我在多年前给出过一个简化的数据治理框架,如下:

这个图重点是将整个数据治理从下到上分为了支撑体系,管理体系和价值体系三大部分的内容。而管理体系里面不仅仅是数据质量,数据安全,数据合规等管理,更加重要的是数据全生命周期管理,具体包括:

  • 静态数据架构:从元数据管理到概念模型,逻辑模型,物理模型
  • 动态生命周期:数据从产生到消亡的全生命周期动态过程

注意当时我给出这个图实际范畴是大于数据治理标准规范体系。我希望的是数据治理应该包括完整的数据架构规划设计内容(当前很多业界会将数据治理和数据架构拆分为独立两块),其次就是我当时就强大了数据治理一定要包括数据的运营和数据的价值创造。

因此在广义数据治理一定包括了数据运营,数据流通和交易内容。包括随着国家提出数据资源要素,建立国家数据局,构建数据统一大市场,数据资产入表等概念后,将进一步扩展了数据治理的范畴。简单总结就是数据治理从数据管理向数据价值运营发展。

所以在早期我就推荐了数据治理蓝宝书《数据治理-工业企业数字化转型之道》这本书,这本书简单来总结就是大而全,基本围绕数据治理框架体系,把数据治理各个方面内容都全部讲到。

不仅仅是我们经常谈到元数据管理,数据模型,数据架构,数据安全,数据质量,数据指标管理,数据采集集成,数据交互共享。同时也给出了常用的数据治理工具和核心工具介绍,后续还给出了数据治理的规划和实施路径,建设案例等。如果你刚开始接触数据治理,希望快速地构建完整的数据治理框架体系,那么这本书是相当适合的。

包括这本书最近出了最新的第3版,在国家数据类政策解读,AI融合,数据流通和运营,数据治理案例等方面都做了补充,值得参考和学习。

当然基于多年的数据项目经验,结合国家数据资产化策略指导,我们也重新规划自己的数据治理咨询体系,可为企业提供数据治理咨询,引导企业增强行业数据归集、治理、运营能力,专注于用数据技术赋能数字经济。推动数据活化利用,探索数据价值化路径。

新的数据治理总体架构包括数据治理工作的战略、目标、数据治理内容、支撑平台。其中数据治理内容包含了三大层面,七大数据专项治理域,具体的工作架构图如下:

基于该总体架构,数据治理整体架构不仅仅是底层数据治理工具平台的规划和建设,更加重要的是中间层的七项数据治理专项能力。这些专项能力实际是覆盖了数据架构规划设计和数据管控类的要求。具体包括了:元数据管理,数据模型管理,主数据管理,数据安全,数据质量,数据集成,数据质量评估。

对于数据运营和数据流通体系,数据价值发现我后续在讲数据空间咨询规划的时候再专门展开来讲。

好了,接着来解释下一个关键问题,就是业界有些将数据治理和数据架构两个概念分开理解的一些说明。实际前面数据治理框架里面也有类似元数据,主数据,数据模型管理内容,这些本身也是数据架构的关键。数据架构我们可以理解为EA企业架构的一个子集合,而企业架构中的数据架构本身分为了数据资产分离目录,数据标准,数据模型,数据分布,里面也含有数据治理体系流程的内容。如果分开理解可以这样理解:

数据治理更加偏通用的组织,管控,安全,质量,标准等体系规范和流程的建设。数据架构更加偏基于业务需求深刻理解后的数据建模。这建模既包括了OLTP里面常谈的概念模型,逻辑模型,物理模型。也包括了OLAP里面常谈到的贴源层-》DWD层-》宽表层-》维度数仓模型层。

再简单来说就是,数据治理更加通用化,不熟悉行业和具体业务可以做数据治理类的工作,但是不熟悉业务是绝对没法做数据架构类工作,数据架构类工作和业务密切相关,类似定义到物理模型,每个字段往往都蕴含了特定的业务含义和业务规则,不清楚业务寸步难行。

数据模型是数据架构的关键输出,同时数据模型也是衔接数据采集集成和后续数据能力开放的关键桥梁,实际你大量数据治理工作的最终标准化落地也需要体现在数据模型上面。因此数据治理工作的开展更加应该体现以数据价值发现为关键目标,体现数据架构驱动和数据模型驱动。

精益数据方法论-场景+价值驱动

大家可以思考下,为何很多企业的数据治理和数据中台类项目建设失败。其中有两个关键原因,其一就是前面提到的做数据治理工作的人没有行业和业务经验积累,这类人做不了数据架构工作。其二就是往往一开始规划的太大而全,希望解决所有数据问题,希望数据中台采集集成企业所有的数据。但是我们发现实际情况就是数据中台虽然采集集成了所有数据,真正通过数据服务能力开放被其他业务系统使用,实现数据反哺业务的少之又少。

也正是这个原因,我当时在读完了史凯老师的《精益数据方法论-数据驱动的数字化转型》这本书后给出了强烈推荐的评价。整本书它的内容相当的丰富,整个方法论的逻辑也相当的严整严谨,包括后面给出的相应的一些实施路线案例也相当的有操作性。

我在读完后画了一个导读图供参考:

这本书结合精益管理思想和商业模块画布的思想给出了完整的精益数据方法论,核心仍然是实际你企业核心的业务战略数据战略出发,你怎么样去找到关键速赢的数据价值的场景,然后去规划你的业务场景的蓝图,数据资产的蓝图,包括你整个数字化技术的蓝图。然后再基于数据资产卡片的思路来规划和设计数据产品,最终通过相应的数据工具和平台去逻辑实施。当然这个框架里面仍然应该去包括我们常说的组织支撑的体系,你的整体的数据运营的体系,包括数据库标准规范流程,包括数据建模的规范,这些都应该在整个精益数据治理里面会谈到。

当然这本书还有一个重点,就是提到了数据产品的概念和完整的数据产品开发方法论。同时给出了数据产品的一个简单定义,即数据产品是通过使用数据达成业务目标的产品。

注意这里面实际有两个核心,其一就是数据是核心的生产要素, 其二是数据能够真正创造价值。所以这也是我为何一直反对讲类似ETL工具也划入数据产品的原因,ETL类工具既不能体现数据是生产要素,也不能体现创造价值的核心是数据。

数据资源化-》数据资产化-》数据资本化

接着给大家推荐一本讲数据资产入表的书籍,实际讲这块的书籍相当多,在这里只推荐一本,即《一本书讲透数据资产入表》这本红皮书,整体来说整本书在讲数据资产入表的时候,整体讲的相当的体系化和系统化,基本上也如这本书说明说的,你看了这本书以后,你基本上就可以把数据资产入表相关的从产业政策到入表的方法,到相关的财务技术法律的基础支撑,这一些关键的内容都搞清楚。

注:该图为书籍配图的知识地图。

这本书刚开始一样的,首先还是从国家政策产业政策出发来讲,数据资产入表和数据资源要素,包括从02年国家发的政策,相关的政策就已经把数据作为一个核心的生产要素,到了22年又推出了数据20条,进一步写清楚了怎么样去建设数据基础制度,促进数据要素市场的一个发展。

包括到了22年底23年初又出了数字中国的政策,包括成立国家数据局,在整个数字中国的2522规划里面,我们也可以看到它的底座已经不是单纯的数据基础设施了,还包括了核心的数据资源要素。在2023年的6月份,财政部又下发了一个关于数据资产入表的财务会计准则,进一步给出了具体数据资产入表,你怎么样在会计层面进行详细操作的规则和指南。

在这一部分的内容讲解完了以后,他又讲了三大前导的基础知识,第一个就是数据资产入表你需要具备的一些财务知识,比如说我们经常谈到的实际的资产负债、所有者权益、收入利润成本的财务核心的6要素,我们要讲搞清楚数据资产入表究竟是怎么样影响到财务报表的。

在前面我也专门讲过,一个如果一个数据资产你没有去交易流通,仅仅是在内部使用,它往往是影响了你的利润表和资产负债表。但是你如果数据资产发生场外交易后,它其实还会影响到你的收入和现金流表。

在财务基础知识完了以后,本书还详细讲解了数据资产入表需要的技术支撑,比如相应的大数据平台,流批一体平台,你需要去建相关的数据治理平台,元数据管理平台,包括后面的一些数据交易数据运营平台,在这本书里面也做了一个详细的介绍。

当然这本书核心的一个重点还是数据如何入表,数据入表的实施流程是如何的,包括数据如何从数据资源转变到数据资产,从数据资产转变到数据资本。对于数据资源怎么入表,对于数据产品怎么入表。在数据资源和数据产品怎么做表讲完了以后,后续又会强调数据资产详细的评估方法,最后还从金融方面举了相关的案例,进行了相关的剖析。

所以整本书它的体系化和结构相当的完整,你基本上看这本书对数据资产入表完整的基础知识实施流程平台支撑,包括后续的评估方法都会有一个完整的理解。包括还给出了数据资产一次入表和二次入表的概念,方便区别数据资产化和资本化的过程差异。

在里面看这本书的时候,我们一定要抓住两个重点,第一个就是这本书里面谈到的数据资产入表的实施流程,整个的实施流程又分成了三个很重要的内容,一个叫数据资源化,第二个叫数据资产化,第三个叫数据资本化。数据资源化就是你要去识别核心的有潜在价值的数据资源,数据的资产化理念,核心的你要先去做好数据资产入表的资产分类,如果你这个数据仅仅是在内部使用,它往往会作为无形资产进行注表,如果你这个数据后面会发生买卖或者是场外交易,它可以是按照存货方式进行入表。

对于软件产品大家都知道可以做软件资本化,作为无形资产入表。但是数据资产入表,同样我们可以讲数据作为一个产品来进行设计,这也是我常提到的数据产品是数据资产如表的一个前提。但是这本书同样并没有对数据产品的完整设计开发方法做全面展开。

数据产品开发和运营

大家注意看下,前面推荐的基本书,数据治理这本书偏完整的数据治理框架知识体系的搭建,精益数据方法论这本书偏整体的数据规划咨询,数据资产入表这本书帮我理清楚了从数据资源化到资产化,资产化到资本化的数据流程和数据价值发现的完整过程。

但是里面有一个关键问题,就是数据资源化到数据资产化的转变,这个中间需要一个关键的价值载体,这个价值载体就是数据产品。因此这也引出了我强烈推荐的第四本书《数据产品开发与运营-从数据资源到数据资本》,这本书核心就是以数据产品为核心价值载体,围绕数据产品的全生命周期,解决敏捷数据方法论和DataOps的思路构建了完整的数据产品设计开发到最终价值运营的完整路径和实践。

首先大家可以思考下,为何所有数据资源都是数据产品,在数据资源的资产化过程中需要提出数据产品的概念?

这里面的关键点还是在于数据资源往往仅仅解决了数据简单的标准化和规范化等基础问题,但是这个数据是否有对我价值并没有解决。因为数据价值的发现往往涉及到多个数据的关联和组合,涉及到基于一定的规则或算法对数据进行统计分析和聚合,最新形成的才是能够发挥数据价值的数据产品。这个地方需要有相应的数据模型来承载,同时通过类似数据服务API或消息发布订阅模式来开发数据能力进行数据交易和流通。

所以简单来说就是不是所有的数据资源都能够变成数据产品,更不是所有数据资源都能够数据资产化,在这个中间必须有数据产品作为关键的价值承载点,数据产品一方面是完成了数据的建模工作,一方面是完成了数据的价值发现工作。数据产品的开发即通过数据的建模,数据的加工整合最终形成了真正能够发挥价值的产品,这个数据产品才是数据资本化的基础。

因此在这本书里面也给出了数据设计开发的方法,在这本书里面其实给出了一个详细的一个指导,包括怎么样去收集数据类的目标,包括怎么样去构建数据的场景采集数据类的需求,包括怎么样去设计相关的数据组件,在数据组件设计完了以后,你怎么样去做数据的采集集中清洗,包括对于每一个步骤他也给出了方法,包括相关的一些数据资产数据需求收集的资产的卡片,整个方法仍然是相当的完整。

那么对于这个方法相当适合企业完整的从0到1去构建一个数据中台系统。你把数据中台的底层的技术平台搭建完成以后,你这个工作只完成了一半,剩下的一半其实就是需要基于这么一个数据设计开发的方法论,去搞清楚企业究竟需要哪一些核心的数据,拿到这些数据究竟是支撑业务还是支撑决策,我需要这些数据以后,我应该怎么样去构建我的数据的贴源层,或者是我的数据的知识产权数据的组件库,最终这个数据究竟是给上层的数据分析报表用,还是需要提供能力开放接口支撑上层的业务。

当把这些数全部整合完了以后,基本就清楚了在整个数据中台上面,我应该怎么样去做相关的元数据管理、数据建模,包括数据采集集成一系列的工作。但是在这一块我个人读完了以后,我其实还有一个关键的点,就是我在谈敏捷数据方法论的时候经常谈到的,就是如果现在大家已经有一个完整的数据平台,那么基于零散的相关的数据分析数据需求,我应该怎么样去管理?

这个是完全可以借鉴敏捷方法论故事卡的思路,我们尽量要在一张卡片里面完成所有的步骤,而是把它而不是把它拆解到多张的相关的数据资产卡片里面。

那么在这一张卡片里面,它核心的工作就包括了第一个就是我们说的数据目标,第二个叫数据场景。你一定要说清楚,我要这个数据是在什么场景下需要,比如说我现在需要合同的历史信息的数据,因为我现在再去建采购订单的时候,我想参考一下合同的交易历史,比如说我需要一个供应商的最终的绩效评估的结果数据,因为这个方便我去做更好的采购决策,这个才叫数据使用的场景。

对于业务部门的业务用户来说,它的核心其实是提出数据需求,并精确的描述清楚使用数据的场景。其实这个我虽然叫数据场景,它的本质仍然是业务场景,业务部门提出了这个以后,我们做数据工作的需求分析师,应该接着这个接着朝下面去做相关的数据需求分析,就是分析我这个数据应该从哪里来,究竟是只是采集过来做简单的清洗就可以使用,还是说业务用户提供的是一个聚合类的一个数据指标,我需要去做数据建模和数据统计分析,或者是更加复杂的数据算法,这个是数据分析师要做的关键的事情。

所以有了这个分析以后,你就清楚了整个的数据上下游的数据链条,包括我们常说的数据血缘分析,你把这个分析清楚了以后,才涉及到后面在技术上面你怎么样去做数据的采集清洗或者是建模工作,整个底层的数据链基本上就打通了。这个是我们要做的另外一个关键工作。

第三个工作就是刚才谈到的,任何一个数据产品,它的核心仍然是底层的数据模型,但我把数据链条分析清楚了以后,我就要去考虑我整个数据模型怎么建,在这个数据模型里面只是增加底层贴源层的表,还是需要增加上层的宽表,还是要增加更加上层的支持分析决策的维度表。这个就到了数据设计类的工程师,他接着要去完成的一个重要的工作。当把这个工作完成了以后,我们基本上从数据目标到数据需求,从需求到设计整条链条就拉通了。

有了这一些完整的东西,我们把这个移交到数据开发类的工程师,基本上就可以很好的去执行相关的数据开发和交付的工作了,这个才是我们期望的敏捷的数据设计开发的方法论。任何一个数据,它都有相关的场景和业务需求,它都会涉及到首先涉及到数据的组件构建和数据建模,其次才是最最底层技术层面的事情。

数据架构规划设计

最后我们将数据架构从数据治理里面单独出来,单独来谈下数据架构规划设计和数据平台的搭建方面内容。

数据架构的内容和定义常被误解。上次我参考DAMA的数据架构与数据治理规范体系,发现其多将数据架构理解为数据类的技术架构,且偏重BI的传统分层架构内容,包括市面上有不少的书名将数据架构的书籍,实际也是在讲大数据平台或数据中台。这就导致大家对数据架构的理解出现相当大的差异。

图片
图片

在这里大家可以参考《华为数据之道》这本书,在书里就提到了:

数据(信息)是组织的核心资产,数据架构通过数据资产目录、数据标准、组织级数据模型和数据分布厘清组织数据资产,改善数据质量,提升运作效率 ,有效支撑决策。书中提到数据架构包括四方面内容:一是数据分类与数据目录,二是数据标准,三是数据模型,四是数据分布和数据链

大家要注意,就如同业务架构并非单一的业务能力地图,还包括组织架构设计、业务流程梳理、业务对象模型、CRUD 矩阵分析等输出都属于业务架构的范畴。因此对于数据架构也不能简单地认为就是一张架构图,原来的数据架构多是 OLTP的,涵盖数据分类、数据流向以及数据的概念模型、逻辑模型、物理模型。

然而,如今的数据架构内容和范畴应进一步拓展,既包括传统数据架构,也涵盖偏数据分析、BI 的 OLAP 横向分层数据架构,以及从底层数据采集集成到贴源层、DWD、宽表层、维度分析层的横向分层架构,还包括围绕数据架构的指标分级体系建设等诸多内容。

图片
图片

对于我们做数据架构规划和设计,一定要包括上面两个部分的内容,一个是用于应用系统的规划建设,一个是用于数据驱动和数据分析决策,在底层又通过数据采集集成,数据链,数据血缘分析和追溯等构建成一个完整的整体。这个我当时在构建整个数字化能力体系的时候,也做了专门的区分说明,类似下面里面的两个部分内容。

3.新技术发展对数据架构的新要求

图片
图片

当前云原生和应用架构微服务化背景下,数据架构的规划设计要求提高,主要体现在两个方面。一是基础主数据和共享数据的设计,新的TOGAF10标准里,专门有分册讲述基础主数据及数据治理管控内容。

其二是应用架构微服务化后,微服务应用不仅涉及上层应用组件的拆分,更关键的是底层数据库的拆分。因此在数据架构规划中,做好底层数据模型后,如何拆分数据库成为重要工作。

过去做大单体数据模型建设时并没有这一内容。但现在我们在做新数据架构规划,尤其是从规划转向建设落地时,不仅要考虑全局数据模型,更要思考数据如何拆分,因为数据拆分会引发数据集成和分布等系列问题。

至于数据库拆分的方式,我原来讲过既可以基于领域建模思路,也可以基于传统结构化分析里的 CRUD 矩阵分析,找到高内聚和松耦合的点。具体而言就是分析识别出的核心数据与业务流程的关系,以及数据与应用功能点的关系,找准 CRUD 关系,以此为基础做好数据底层拆分工作。不过这部分没有严格的公式化求解方式,更多依赖不断实践,探索出最适合的数据架构规划设计方法。

图片
图片

其三,我在前面谈到的数据架构模型实际分了面向OLTP的数据架构和面向OLAP的数据横向分层架构。但是当前随着底层技术架构的变化,特别是底层数据存储推出了TP/AP一体化架构,包括当前随着AI大模型的发展,是否还需要严格的进行数据横向分层架构和数据模型建设,这些点上都存在巨大的不确定性。很有可能在远期的发展上面来看,技术架构的发展可能会反向推动数据架构规划设计的变化,实现上层数据架构设计的融合。

对于数据架构本书的底层平台建设和落地,在这里最后再推荐一本关于数据架构设计和平台搭建的书籍,供大家参考。

这本书从0到1讲解了数据架构的技术栈、方法论与落地实践,揭示了数据架构的底层逻辑,总结了数据架构的核心要素和架构模型,阐述了数据治理、数据资产管理以及数据平台的搭建等全方位的内容。详细的推荐导读大家可以参考我B站的视频,在这里不再详细描述。

简单总结

最后再对今天推荐和导读的书做一个简单总结如下:

即数据治理整体范畴里面,横向分层覆盖了数据架构,产品开发和数据资产入表的完整价值识别,价值承载和价值发现过程。纵向动态生命周期流程覆盖了数据治理咨询规划,产品设计开发,数据平台建设落地的完整过程。结合起来基本可以构建一个完整的数据治理框架知识体系。

今天分享就到这里,希望对大家有所帮助。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人月聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档