数据血缘分析如何实现_数据血缘分析示例图_如何分析数据 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据血缘系列（6）—— 数据血缘与主数据

在当今数据驱动的商业环境中，数据治理成为企业成功的关键因素之一，而数据血缘正是数据治理成功的一个关键。本文我们详细探讨下数据血缘与主数据有什么关系？他们之间又是如何配合实现数据治理的。...本文为《数据血缘分析原理与实践》一书读书笔记，部分观点参考自书中原文，如需更详细的了解学习，请大家支持原作者的辛苦付出。...主数据与数据血缘数据血缘是指数据在不同系统和过程中的流转和变更历史。了解主数据的数据血缘对于确保数据的质量和一致性具有重要意义。数据血缘的特征包括来源追溯、变更历史、影响分析和透明性与可追溯性。...合规性和审计方面，数据血缘记录了主数据的变更历史，有助于合规审计，确保数据管理符合相关法规和标准。在业务决策支持方面，了解主数据的血缘关系，有助于进行准确的业务分析和决策，提高业务运营效率。...因此，企业在实施 MDM 时，需要全面考虑这些挑战，并结合数据血缘的优势，制定科学有效的主数据管理策略，推动企业数据治理水平的提升，最终实现业务价值的最大化。

911 0

”数据血缘“入门

它分析表和字段从数据源到当前表的血缘路径，以及血缘字段之间存在的关系是否满足，关注的数据一致性以及表设计的合理性。...数据价值数据的价值如何衡量，是一个很头疼的问题。要想对数据进行价值评估，就需要有个依据；而数据血缘，就提供了几个方面的参考数据，方便进行评估。数据受众：数据需求方越多，数据价值越大。...合规需求这往往是上层管理部门的需求，为了监管合规，数据流动的各点和来源，都是重点需要监管的。因此需要全面了解数据间的关系。安全管控这通常是安全合规部门的需求，需要了解数据如何使用？受众有哪些？...机器学习这个方法是基于数据集之间的依赖关系，计算数据的相似度。这个方法的好处是对工具和业务没有依赖，缺点准确率需要人工确认。目前还没有看到很好的工程实现。...数据血缘分析即数据“前向”血缘。通过指定表/字段，来追溯其前向多级对象。数据影响分析即数据“后向”血缘。通过指定表/字段，来关联其后向多级对象。

10.3K5 1

您找到你想要的搜索结果了吗？

是的

没有找到

数据血缘系列（5）—— 数据血缘与元数据

在当今数据驱动的商业环境中，数据治理成为企业成功的关键因素之一，而数据血缘正是数据治理成功的一个关键。本文我们详细探讨下数据血缘与元数据有什么关系？他们之间又是如何配合实现数据治理的。...本文为《数据血缘分析原理与实践》一书读书笔记，部分观点参考自书中原文，如需更详细的了解学习，请大家支持原作者的辛苦付出。...在数据治理中，元数据和数据血缘紧密相关。元数据记录了数据的来源和目标，使数据血缘分析能够准确地追踪数据的流动路径。...这些信息帮助用户理解数据在处理过程中发生了哪些变化，以及这些变化是如何影响数据的。通过元数据，用户可以识别和管理数据之间的依赖关系。...通过有效的元数据管理和数据血缘分析，企业可以提升数据的质量和可靠性，保障数据的安全性和合规性，提高数据的使用效率和管理水平，充分发挥数据的价值和潜力。

1221 0

python实现之数据血缘关系,by networkx

最近在进行数据逆向分析，无业务无界面无数据库的情况下，想通过对存储过程中关于输出输入表的分析快速了解业务的核心问题，然后再对核心业务进行逆向回溯。...其实问题很简单，一个存储过程会有多个输入表和输出表，一个存储过程的输出表可能会成为另外一个存储过程的输入表，从而将整个数据库的业务逻辑串接起来，基于长链会形成血缘关系，基于关联会形成聚合。...这里需要构造的节点数据和连接数据，节点数据是输入表和输出表剔重后的编号和标签，连接数据通过存储过程标签将节点数据进行关联。代码之前有测试过，所以这次实现无太多需要讲解。 #!

1.8K2 1

数据血缘分析-Python代码的智能解析

面对着几百上千张数据表，不知该如何关联，不知哪些表更有价值执行着长的令人绝望，慢的无法忍受的SQL脚本，却不敢挥刀整改准备着新功能上线，但总担心一行代码的修改会造成严重的生产事故有没有科学的办法，...血缘分析是解决这类问题的一种技术手段。数据血缘(Data Lineage)，指的是数据从产生、ETL处理、加工、融合、流转到最终消亡，数据之间自然形成一种关系。这些关系就是描述数据的数据（元数据）。...掌握了这个元数据，就能最大程度的做好数据的应用和管理。那么如何推导数据之间的血缘关系呢？其实在开发或者分析师团队提供的成百上千的数据脚本中，每一行代码背后都蕴含着业务逻辑和数据关系。...我们参考Pyflakes来实现以上功能，Pyflakes是Python的一个代码分析包，用来分析代码，发现潜在的代码问题，例如：引入但没有用到的模块、变量创建但是没有使用。...，记录每一个词在代码中的起始位置，结果如下：最后，w = checker.Checker(tree, file_tokens=file_tokens, filename=filename) 是主要实现代码检查的函数

1.7K4 1

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述简单来说SQLLineage 是一SQL血缘分析工具，而由于SQL在数据分析中的通用性，SQLLineage 是一数据血缘分析工具。...数据血缘的核心目的是提供对数据流动和变化的完整可视化，从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分，通过收集获取元数据可以分析生成数据血缘，这样可以增加数据透明度，便于审计和合规，也就是说数据血缘在数据安全，数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉，所以说是一个数据血缘的分析神器。我们假设有这样的一个SQL。通过SQLLineage可以快速的分析出表级别的血缘。...也可以分析出列级别的血缘。这样的话，数据的前后关系就一目了然了。同时SQLLineage还支持多种SQL语法的解析器，这不管是我们直接拿来用，还是分析其代码都非常的有帮助。

5971 0

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述简单来说SQLLineage 是一SQL血缘分析工具，而由于SQL在数据分析中的通用性，SQLLineage 是一数据血缘分析工具。...数据血缘的核心目的是提供对数据流动和变化的完整可视化，从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分，通过收集获取元数据可以分析生成数据血缘，这样可以增加数据透明度，便于审计和合规，也就是说数据血缘在数据安全，数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉，所以说是一个数据血缘的分析神器。我们假设有这样的一个SQL。通过SQLLineage可以快速的分析出表级别的血缘。...也可以分析出列级别的血缘。这样的话，数据的前后关系就一目了然了。同时SQLLineage还支持多种SQL语法的解析器，这不管是我们直接拿来用，还是分析其代码都非常的有帮助。

2.5K2 1

字节跳动数据血缘技术实现与具体用例

来源：火山引擎 & DataFun 公众号后台回复：报告获取源文件欢迎添加本站微信：datajh （可上下滑动或点单个图片放大左右滑动查看） 📷 📷 📷...

6514 0

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述简单来说SQLLineage 是一SQL血缘分析工具，而由于SQL在数据分析中的通用性，SQLLineage 是一数据血缘分析工具。...数据血缘的核心目的是提供对数据流动和变化的完整可视化，从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分，通过收集获取元数据可以分析生成数据血缘，这样可以增加数据透明度，便于审计和合规，也就是说数据血缘在数据安全，数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉，所以说是一个数据血缘的分析神器。我们假设有这样的一个SQL。通过SQLLineage可以快速的分析出表级别的血缘。...也可以分析出列级别的血缘。这样的话，数据的前后关系就一目了然了。同时SQLLineage还支持多种SQL语法的解析器，这不管是我们直接拿来用，还是分析其代码都非常的有帮助。

5941 0

元数据管理与数据血缘

所以，收集表结构信息，不光是简单的信息汇总，更重要的是从平台管理和业务需求的角度出发来考虑，如何整理和归纳数据，方便系统集成，实现最终的业务价值。...以hive表为例，通过分析hive脚本的执行计划，是可以做到相对精确的定位出字段级别的数据血缘关系的。...Navigator同时还为用户提供了各种统计分析视图和查询管理工具来分析这些数据。从底层实现来看，Navigator同样通过Hook或着Plugin插件的形式从各种底层系统的运行过程中获取相关信息。...这么做的优点是血缘的追踪分析是基于真实运行任务的信息进行分析的，如果插件部署全面，也不太会有遗漏问题，但是这种方式也有很多不太好解决的问题，比如如何更新一个历史上有依赖后来不再依赖的血缘关系对于一个还未运行的任务...，不能提前获取血缘信息临时脚本或者错误的脚本逻辑对血缘关系数据的污染简单总结一下，就是基于运行时的信息来采集血缘关系，由于缺乏静态的业务信息辅助，如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

5051 0

统一元数据：数据血缘

常见的数据血缘主要包括两大类： SQL血缘：基于SQL解析AST语法树，获取SQL的表、字段血缘；业务血缘：常为基于任务调度DAG生成的数据流向关系；业界方案业界实现方案，开源项目数据血缘对比项目...实现元数据查看操作。...Druid SQL 可分三个模块：Parser、AST、Visitor Parser：将SQL转换为AST抽象语法树，parser有包括两个部分，Parser和Lexer，其中Lexer实现词法分析，Parser...实现语法分析。...本文首先简介了数据血缘的背景、业界方案；其次，针对SQL血缘的实现原理进行详细说明，主要包括三个流程： SQL解析、血缘识别、血缘存储；最后，整体概述了数据血缘的应用架构。

1.3K9 5

Atlas血缘分析在数据仓库中的实战案例

目录一、应用 1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索...4.1 Hive Hook 4.1.1 设置Atlas配置目录 4.1.2 设置环境变量 4.1.3 把压缩包上传 4.1.4 解压包 4.1.5 添加Hive的第三方依赖包 4.1.6 导入Hive数据...JOIN dw.dw_zbchannel tp ON t2.pageid = tp.channelid ) t3 ) t4 WHERE rk = 1; 1.2 手写的数据地图...1.3 atlas血缘分析说明：通过对比，Atlas能够更加准确地解析所有脚本SQL语句，在全局角度能够看到上下游关系，不过自己手动维护的好处的是能够更加方便地迭代维护。...1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系说明：强大地血缘关系可以直接查看出整条字段的数据链路。

2K1 0

前瞻|Amundsen的数据血缘功能

目前，Amundsen并不支持表级别和列级别的数据血缘功能，也没有办法展示数据的来龙去脉。作为Amundsen一项非常核心的功能，Lineage功能早已经提上日程，并进入设计与研发阶段。...新的概念 Lineage：这是一个术语，代表了数据流的传递过程，从一个实体到另一个实体。特别是ETL的过程，重点关注表到表，列到列的数据流转过程。...Upstream：数据从上游流向下游，Upstream就代表着当前的数据来源。 Downstream：代表了使用了当前数据的相关实体。...每个选项卡将包含从中继承或使用数据的表的列表。这允许用户以非常简单的方式查看。 image.png 列级别和表级别相似，可通过扩展列的元数据来查看。...image.png 当然这还只是初步的设计，未来可能会有更多的变化，我们会持续关注~ 附一张Apache Atlas此功能的实现图 image.png

1.6K2 0

元数据管理实践&数据血缘

所以，收集表结构信息，不光是简单的信息汇总，更重要的是从平台管理和业务需求的角度出发来考虑，如何整理和归纳数据，方便系统集成，实现最终的业务价值。...以hive表为例，通过分析hive脚本的执行计划，是可以做到相对精确的定位出字段级别的数据血缘关系的。...Navigator同时还为用户提供了各种统计分析视图和查询管理工具来分析这些数据。从底层实现来看，Navigator同样通过Hook或着Plugin插件的形式从各种底层系统的运行过程中获取相关信息。...这么做的优点是血缘的追踪分析是基于真实运行任务的信息进行分析的，如果插件部署全面，也不太会有遗漏问题，但是这种方式也有很多不太好解决的问题，比如如何更新一个历史上有依赖后来不再依赖的血缘关系对于一个还未运行的任务...，不能提前获取血缘信息临时脚本或者错误的脚本逻辑对血缘关系数据的污染简单总结一下，就是基于运行时的信息来采集血缘关系，由于缺乏静态的业务信息辅助，如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

1.8K4 0

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

前几天，Datahub提供了最新的字段级别数据血缘功能，很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。...今天我们就来看一下这个问题到底是怎么引起的，然后从HiveSql的语法树讲起，看看数据血缘到底是如何被检测到的。最后提醒，文档版权为公众号大数据流动所有，请勿商用。...正文开始：通过本文档，可以快速的解决Hive在Altas字段级血缘没有生成的问题，并了解Hive数据血缘实现原理。更多元数据管理，数据血缘相关文章，可以关注后续的文章更新。...并为数据分析师和数据治理团队，提供围绕这些数据资产的协作功能。...四、Hive表数据血缘实现表的实现就比较简单了。

1.6K1 0

Atlas血缘分析在数据仓库中的实战案例

Hi，我是王知无，一个大数据领域的原创作者。...目录一、应用 1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索...4.1 Hive Hook 4.1.1 设置Atlas配置目录 4.1.2 设置环境变量 4.1.3 把压缩包上传 4.1.4 解压包 4.1.5 添加Hive的第三方依赖包 4.1.6 导入Hive数据...1.3 atlas血缘分析说明：通过对比，Atlas能够更加准确地解析所有脚本SQL语句，在全局角度能够看到上下游关系，不过自己手动维护的好处的是能够更加方便地迭代维护。...1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系说明：强大地血缘关系可以直接查看出整条字段的数据链路。

3.2K1 1

你了解你的数据吗（元婴篇）：血缘分析

本篇将引入一个新的概念：数据血缘分析，或者叫血统分析。 0x01 血缘分析那么什么是数据血缘分析呢？在这里我们不给出它的严谨的定义，仅从感觉上来解释一下这个东西。...上面的过程是数据血缘分析的过程。 0x02 数据血缘分析有什么用？？？...咋一看，其实感觉数据血缘分析并没有什么用，其实就我个人感觉来看，其实的确没什么用，特别是在你的业务规模比较小并且数据合作不频繁的情况下，基本不需要数据血缘分析。...其实总的说来，数据血缘能帮你更好地理解自己的数据！ 0x03 关于实现实现的话不打算在这里多聊，因为数据血缘一般是和元数据管理紧紧绑定起来的，在设计元数据管理系统的时候应该要考虑到数据血缘的内容。...关于元数据系统的设计可以参考这篇博客《别人家的元数据系统是怎么设计的》。这里随便提一句，数据血缘的管理可以考虑使用图数据来实现，用图数据的好处是更容易展现表之间的关系。

7.7K8 3

基于Spline的数据血缘解析

一、前言什么是数据血缘？数据血缘是数据产生、加工、转化，数据之间产生的关系。随着公司业务发展，通过数据血缘，能知道数据的流向，以便我们更好地进行数据治理。二、为什么选择 Spline？...政采云大数据平台的作业目前主要有 Spark SQL、PySpark、Spark JAR、数据交换、脚本类型等，最初由于实现难度的问题，考虑解析 SparkPlan（ Spark 物理计划）以获取表、字段血缘...Kafka，应用可消费 Kafka 数据获取字段血缘数据进行解析，但政采云大数据平台，基于业务需要，字段血缘需要跟作业绑定，若通过消费 Kafka 的方式，无法在获取字段血缘数据的同时跟作业绑定。...附，Spline REST 文档 1、血缘解析流程 Htools：政采云大数据平台的一个调度工具 IData：政采云大数据平台应用层 2、基于接口解析血缘解析字段血缘，主要涉及到 Consumer...四、总结基于 Spline REST 接口获取表、字段血缘等相关信息，在实际实现过程中，每个作业调用的总接口次数是比较多的，但即便调用次数较多，也在服务器可承受范围内，上线后第一次解析血缘接口调用比较密集

7012 0

数仓字段血缘解析实现—hive版

【本文大纲】 1、字段血缘分析的意义 2、实现方案选择 3、实现过程 4、总结字段血缘分析的意义数仓经常会碰到的两类问题： 1、两个数据报表进行对比，结果差异很大，需要人工核对分析指标的维度信息，比如从头分析数据指标从哪里来...，处理条件是什么，最后才能分析出问题原因 ——数据回溯问题 2、基础数据表因某种原因需要修改字段，需要评估其对数仓的影响，费时费力，然后在做方案 —— 影响分析问题这两类问题都属于数据血缘分析问题...，数据血缘分析还有其它的积极意义，比如：问题定位分析类似于影响分析，当程序运行出错时，可以方便找到问题的节点，并判断出问题的原因以及后续的影响指标波动分析当某个指标出现较大的波动时，可进行溯源分析...，判断是由哪条数据发生变化所导致的数据体检判定系统和数据的健康情况，是否存在大量的冗余数据、无效数据、无来源数据、重复计算、系统资源浪费等问题数据评估通过血缘分析和元数据，可以从数据的集中度、分布...、冗余度、数据热度、重要性等多角度进行评估分析，从而初步判断数据的价值实现方案选择经过调研，目前业界有一些优秀的框架，比如druid ，内部已经实现了大部分的解析功能，可以用来解析sql，但是它的缺点是支持

4.7K7 0

数据血缘关系：图数据库Neo4j存储实现

背景元数据管理包含内容较广，本篇介绍其中非常重要的数据血缘关系存储实现。...数据血缘关系通过对oracle、greenplumn、mysql、hive、presto、spark和flink多引擎等等覆盖，实现生成数据血缘关系、数据价值分析、影响度分析和数据存储生命周期管理。...总结本篇讲述了数据血缘关系使用Neo4j存储，并给出例子实现创建血缘关系创建语句，实际应用中数据血缘关系是通过数据加载进去的。...没讲这些血缘关系的元数据是如何从SQL或应用中解析获取的，有机会笔者再另分享。数据血缘关系在元数据管理中是非常重要的内容，其不仅展示数据来龙去脉，还定位异常数据影响范围。...如影响度分析，也是较为血缘关系应用的一部分，其用来分析数据的下游流向。当系统进行升级改造时，能动态数据结构变更、删除及时告知下游系统。

9.2K4 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭