首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据血缘“入门

什么是数据血缘数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据血缘关系。数据血缘是元数据的组成部分之一。...它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。...可追溯性 数据血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性 数据血缘关系是有层次的。...数据血缘分析 即数据“前向”血缘。通过指定表/字段,来追溯其前向多级对象。 数据影响分析 即数据“后向”血缘。通过指定表/字段,来关联其后向多级对象。...数据全局血缘 不局限于单个对象,可从更大尺度(例如:项目内等),了解整体数据流转情况。这对于分析热点对象、数据清理等需求都很有意义。 数据计算血缘 即从“作业”角度入手,分析其前向、后向作业情况。

10.1K51

数据管理与数据血缘

比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。...数据血缘关系信息 血缘信息或者叫做Lineage的血统信息是什么,简单的说就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。知道这个信息有什么用呢?...以hive表为例,通过分析hive脚本的执行计划,是可以做到相对精确的定位出字段级别的数据血缘关系的。...最后,关于数据血缘关系跟踪,再多说两句。...,不能提前获取血缘信息 临时脚本或者错误的脚本逻辑对血缘关系数据的污染 简单总结一下,就是基于运行时的信息来采集血缘关系,由于缺乏静态的业务信息辅助,如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

38310
您找到你想要的搜索结果了吗?
是的
没有找到

前瞻|Amundsen的数据血缘功能

目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。...新的概念 Lineage:这是一个术语,代表了数据流的传递过程,从一个实体到另一个实体。特别是ETL的过程,重点关注表到表,列到列的数据流转过程。...Upstream:数据从上游流向下游,Upstream就代表着当前的数据来源。 Downstream:代表了使用了当前数据的相关实体。...每个选项卡将包含从中继承或使用数据的表的列表。这允许用户以非常简单的方式查看。 image.png 列级别 和表级别相似,可通过扩展列的元数据来查看。

1.5K20

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。...这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以然。...正文开始: 通过本文档,可以快速的解决Hive在Altas字段级血缘没有生成的问题,并了解Hive数据血缘实现原理。更多元数据管理,数据血缘相关文章,可以关注后续的文章更新。...但是,很多同学在按该步骤操作完以后,字段级数据血缘并未生成。这是为什么呢?...四、Hive表数据血缘实现 表的实现就比较简单了。

1.5K10

数据管理实践&数据血缘

比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。...数据血缘关系信息 血缘信息或者叫做Lineage的血统信息是什么,简单的说就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。知道这个信息有什么用呢?...以hive表为例,通过分析hive脚本的执行计划,是可以做到相对精确的定位出字段级别的数据血缘关系的。...最后,关于数据血缘关系跟踪,再多说两句。...,不能提前获取血缘信息 临时脚本或者错误的脚本逻辑对血缘关系数据的污染 简单总结一下,就是基于运行时的信息来采集血缘关系,由于缺乏静态的业务信息辅助,如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

1.6K40

基于Spline的数据血缘解析

一、前言 什么是数据血缘数据血缘数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline?...政采云大数据平台的作业目前主要有 Spark SQL、PySpark、Spark JAR、数据交换、脚本类型等,最初由于实现难度的问题,考虑解析 SparkPlan( Spark 物理计划)以获取表、字段血缘...Kafka,应用可消费 Kafka 数据获取字段血缘数据进行解析,但政采云大数据平台,基于业务需要,字段血缘需要跟作业绑定,若通过消费 Kafka 的方式,无法在获取字段血缘数据的同时跟作业绑定。...附,Spline REST 文档 1、血缘解析流程 Htools:政采云大数据平台的一个调度工具 IData:政采云大数据平台应用层 2、基于接口解析血缘 解析字段血缘,主要涉及到 Consumer...4、调优 表、字段血缘跟作业绑定,故,若作业无变化的情况,表、字段的血缘是不会变化的,在作业调度完后,调用解析血缘的接口时,我们结合当前作业版本和前一次血缘记录中的作业版本进行比对,若作业版本不一致的情况才更新血缘

54520

Yelp 的 Spark 数据血缘建设实践!

它提供数据旅程的可视化表示,包括从起点到目的地的所有步骤,并提供有关数据去向、谁拥有数据以及在每个步骤中如何处理和存储数据的详细信息。...Spark-Lineage 从每个 Spark-ETL 作业中提取所有必要的元数据,构建数据移动的图形表示,并让用户通过第三方数据治理平台以交互方式探索它们。 图 1....了解机器学习功能 研究机器学习模型的数据科学家经常在构建新功能时寻找现有数据。在某些情况下,他们发现的数据可能基于关于应包含哪些数据的不同假设。...服务端实现 数据标识符 Spark-Lineage 需要跟踪的最基本的元数据数据的标识符。我们提供了 2 种方法来识别输入/输出表:schema_id和数据的位置。...并负责数据的技术文档和数据问题的故障排除。

1.3K20

干货 | 携程数据血缘构建及应用

数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。...数据血缘用途: 追踪数据溯源:当数据发生异常,帮助追踪到异常发生的原因;影响面分析,追踪数据的来源,追踪数据处理过程。...、数据血缘、安全和生命周期管理在内的元数据治理核心能力。...它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。...随着业务需求和数据的增长,数据的加工流程越来越复杂,构建一套数据血缘,可以轻松查询到数据之间的关系,进行表和字段级的血缘追溯,在元数据管理,数据治理,数据质量上承担重要一环。

4.6K20

python实现之数据血缘关系,by networkx

最近在进行数据逆向分析,无业务无界面无数据库的情况下,想通过对存储过程中关于输出输入表的分析快速了解业务的核心问题,然后再对核心业务进行逆向回溯。...其实问题很简单,一个存储过程会有多个输入表和输出表,一个存储过程的输出表可能会成为另外一个存储过程的输入表,从而将整个数据库的业务逻辑串接起来,基于长链会形成血缘关系,基于关联会形成聚合。...这里需要构造的节点数据和连接数据,节点数据是输入表和输出表剔重后的编号和标签,连接数据通过存储过程标签将节点数据进行关联。 代码之前有测试过,所以这次实现无太多需要讲解。 #!

1.7K21

数据资产与治理:浅谈数据血缘的作用与价值

数据资产管理与数据治理领域,数据之间的血缘关系是一个绕不开的话题,数据血缘的完备程度也是评价一个企业数据中台成熟度的重要度量之一。...数据存储和计算处理量,大概需要1000+服务器节点,机器折旧周期3年算,平均个月也需要几十万的硬件成本。...二、数据血缘作用与表现形式 1.数据血缘的作用 开篇的场景中的案例是数据血缘的两个典型的作用,总结成一句话就是数据血缘可以帮助数据生产者以及消费者更好地对数据进行追根溯源,提升数据运维、数据治理的效率。...2.血缘数据的存储演进 虽然传统的MySQL数据库也可以存储血缘数据,但是由于血缘数据的形态以及查询使用的场景对性能要求更高,所以在实际应用时,主要采用图数据库存储的方式。...针对数据血缘这一领域,也可以构建独立的数据产品模块,以数据产品提升血缘应用的效率。

77420

马哈鱼带你发现SQL中的数据血缘

一、马哈鱼数据血缘分析器( SQLFlow )是什么 ---- 在大型数据仓库和数据湖中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。...那么到底什么是数据血缘关系 (data lineage) 呢? 维基百科上的定义是:数据从哪里来,往哪里去,中间发生了哪些变化。 马哈鱼数据血缘分析器通过分析 SQL 脚本,给出完整的数据血缘关系。...四、产品版本 1.马哈鱼数据血缘分析器 马哈鱼数据血缘分析器是一个 SaaS 服务。通过浏览器直接使用,无需安装任何软件。 通过浏览器访问马哈鱼数据血缘分析器。 在浏览器中上传SQL文本或文件。...六、马哈鱼数据血缘分析器的局限 马哈鱼数据血缘分析器仅仅通过分析 SQL 脚本,包含存储过程(proceudre, function, trigger)来获取数据库中 的数据血缘关系。...但在 ETL 数据转换过程中,会用到很多其它技术和工具,由此产生的数据血缘关系目前 马哈鱼数据血缘分析器无法探知。

2.6K20

数据血缘分析-Python代码的智能解析

如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?...从而帮助开发人员更好地认识和理解业务系统业务与底层表关系、底层表的表间关系,理清当前数据(字段、关键指标或者数据标签)从哪里来、到哪里去,搞清楚哪些下游系统在使用这些数据。...血缘分析是解决这类问题的一种技术手段。数据血缘(Data Lineage),指的是数据从产生、ETL处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。这些关系就是描述数据数据(元数据)。...掌握了这个元数据,就能最大程度的做好数据的应用和管理。 那么如何推导数据之间的血缘关系呢?其实在开发或者分析师团队提供的成百上千的数据脚本中,每一行代码背后都蕴含着业务逻辑和数据关系。...有没有可能通过批量解析这些数据脚本,自动提炼出背后的数据逻辑,以及脚本之间的依赖关系呢? 本文介绍一种针对python代码的推导方法。

1.6K41

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。...数据血缘(Data Lineage),也有翻译为数据沿袭,都数据血缘(Data Lineage)是指追踪数据从其源头到目的地的路径,包括它在整个数据生命周期中的流动、转换和使用情况。...数据血缘的核心目的是提供对数据流动和变化的完整可视化,从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分,通过收集获取元数据可以分析生成数据血缘,这样可以增加数据透明度,便于审计和合规,也就是说数据血缘数据安全,数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘

1.3K10

数据血缘到底是什么?与类似数据概念有什么不同?

了解数据血缘的重要性不言而喻! 那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢? 对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。 数据价值链。 数据链。...数据流。 数据集成架构。 信息价值链。 为了便于记忆,将它们放入图1中。 图1 与数据血缘类似的概念 ▊ 数据血缘 几种DAMA出版物对数据血缘的定义有所不同。...数据血缘是“它(数据)从源点移动到使用点的路径”。 在DAMA-DMBOK2中,术语数据血缘数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。...数据血缘描述了数据从源点到目的地的路径,以及数据在路径中进行的转换。 数据血缘数据流和数据集成架构都是同一个概念。DAMA的出版物将数据血缘数据流和数据集成架构视为同义词。...其他几个概念的定义也与数据血缘类似。所有这些概念在不同的抽象层级上描述了数据的流动和转换。 这些概念名称经常互换使用。数据链被认为是数据血缘的同义词。数据流被定义为数据血缘的一种类型。

40540

Spark App 血缘解析方案

作者:三余 部门:数据中台 一.背景 随着数据仓库数据量的增长,数据血缘( Data Lineage or Data Provence ) 对于数据分析来说日益重要, 通过数据血缘可以追溯表-表,表-...任务,任务-任务的上下游关系, 用来支撑问题数据溯源,孤岛数据下线的需求。...目前已经基于ANTLR 语法解析支持了 SQL 任务的血缘解析,而 Spark App 任务的血缘仍然是通过人工配置方式进行。我们希望能够将 Spark App 任务的解析做个补充,完善血缘逻辑。..._jsparkSession) ‍ 3.1.2 血缘解析 血缘解析逻辑在SplineAgent.handle()方法,通过调用LineageHarvester.harvest(),获取最终血缘,并交给...最后信息会封装为 WriteCommand 数据结构。

2.2K30

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。...数据血缘(Data Lineage),也有翻译为数据沿袭,都数据血缘(Data Lineage)是指追踪数据从其源头到目的地的路径,包括它在整个数据生命周期中的流动、转换和使用情况。...数据血缘的核心目的是提供对数据流动和变化的完整可视化,从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分,通过收集获取元数据可以分析生成数据血缘,这样可以增加数据透明度,便于审计和合规,也就是说数据血缘数据安全,数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘

46710

数仓血缘关系数据的存储与读写

二、业务需求背景介绍 为方便数据治理、元数据管理及数据质量监控,将调度系统生成的数仓血缘保存起来。...血缘数据流程 从采集、存储到平台展示的数据全流程: [血缘数据流程] 在查询平台的部分数据查询展示 [数据查询展示] 三、我的具体实践 1、版本选择 这里我们采用了 Nebula v3.0.0、Nebula...4、数据导入 目前分两种情况更新数据。 a....定时调度矫正数据 通过 MySQL 中的血缘关系,通过 Spark 任务定时校正 Nebula 数据,更新数据同样通过 Spark Connector 实现。...5、数据平台查询 数据平台查询血缘的应用: a. 获取 Nebula 数据实现过程 通过初始化连接池 Nebula pool,实现单例工具类,方便在整个项目中调用并使用 Session。

1K20
领券