展开

关键词

数据血缘“入门

什么是数据血缘数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据血缘关系。数据血缘是元数据的组成部分之一。 它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。 可追溯性 数据血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性 数据血缘关系是有层次的。 数据血缘分析 即数据“前向”血缘。通过指定表/字段,来追溯其前向多级对象。 数据影响分析 即数据“后向”血缘。通过指定表/字段,来关联其后向多级对象。 数据全局血缘 不局限于单个对象,可从更大尺度(例如:项目内等),了解整体数据流转情况。这对于分析热点对象、数据清理等需求都很有意义。 数据计算血缘 即从“作业”角度入手,分析其前向、后向作业情况。

7.3K51

前瞻|Amundsen的数据血缘功能

目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。 新的概念 Lineage:这是一个术语,代表了数据流的传递过程,从一个实体到另一个实体。特别是ETL的过程,重点关注表到表,列到列的数据流转过程。 Upstream:数据从上游流向下游,Upstream就代表着当前的数据来源。 Downstream:代表了使用了当前数据的相关实体。 每个选项卡将包含从中继承或使用数据的表的列表。这允许用户以非常简单的方式查看。 image.png 列级别 和表级别相似,可通过扩展列的元数据来查看。

79220
  • 广告
    关闭

    腾讯云图限时特惠0.99元起

    腾讯云图是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。新用户0.99元起,轻松搞定数据可视化

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Yelp 的 Spark 数据血缘建设实践!

    它提供数据旅程的可视化表示,包括从起点到目的地的所有步骤,并提供有关数据去向、谁拥有数据以及在每个步骤中如何处理和存储数据的详细信息。 Spark-Lineage 从每个 Spark-ETL 作业中提取所有必要的元数据,构建数据移动的图形表示,并让用户通过第三方数据治理平台以交互方式探索它们。 图 1. 了解机器学习功能 研究机器学习模型的数据科学家经常在构建新功能时寻找现有数据。在某些情况下,他们发现的数据可能基于关于应包含哪些数据的不同假设。 服务端实现 数据标识符 Spark-Lineage 需要跟踪的最基本的元数据数据的标识符。我们提供了 2 种方法来识别输入/输出表:schema_id和数据的位置。 并负责数据的技术文档和数据问题的故障排除。

    8420

    干货 | 携程数据血缘构建及应用

    数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。 数据血缘用途: 追踪数据溯源:当数据发生异常,帮助追踪到异常发生的原因;影响面分析,追踪数据的来源,追踪数据处理过程。 、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。 随着业务需求和数据的增长,数据的加工流程越来越复杂,构建一套数据血缘,可以轻松查询到数据之间的关系,进行表和字段级的血缘追溯,在元数据管理,数据治理,数据质量上承担重要一环。

    1.8K20

    python实现之数据血缘关系,by networkx

    最近在进行数据逆向分析,无业务无界面无数据库的情况下,想通过对存储过程中关于输出输入表的分析快速了解业务的核心问题,然后再对核心业务进行逆向回溯。 其实问题很简单,一个存储过程会有多个输入表和输出表,一个存储过程的输出表可能会成为另外一个存储过程的输入表,从而将整个数据库的业务逻辑串接起来,基于长链会形成血缘关系,基于关联会形成聚合。 这里需要构造的节点数据和连接数据,节点数据是输入表和输出表剔重后的编号和标签,连接数据通过存储过程标签将节点数据进行关联。 代码之前有测试过,所以这次实现无太多需要讲解。 #!

    47421

    IBD血缘同源简介

    IBD全称Identity By Descent, 又叫做血缘同源,指的是两个个体中共有的等位基因来源于共同祖先;IBS全称Identity By State, 又叫做状态同源,指的是两个个体中共有的等位基因序列相同

    2.4K20

    马哈鱼带你发现SQL中的数据血缘

    一、马哈鱼数据血缘分析器( SQLFlow )是什么 ---- 在大型数据仓库和数据湖中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。 那么到底什么是数据血缘关系 (data lineage) 呢? 维基百科上的定义是:数据从哪里来,往哪里去,中间发生了哪些变化。 马哈鱼数据血缘分析器通过分析 SQL 脚本,给出完整的数据血缘关系。 四、产品版本 1.马哈鱼数据血缘分析器 马哈鱼数据血缘分析器是一个 SaaS 服务。通过浏览器直接使用,无需安装任何软件。 通过浏览器访问马哈鱼数据血缘分析器。 在浏览器中上传SQL文本或文件。 六、马哈鱼数据血缘分析器的局限 马哈鱼数据血缘分析器仅仅通过分析 SQL 脚本,包含存储过程(proceudre, function, trigger)来获取数据库中 的数据血缘关系。 但在 ETL 数据转换过程中,会用到很多其它技术和工具,由此产生的数据血缘关系目前 马哈鱼数据血缘分析器无法探知。

    1.1K20

    数仓血缘关系数据的存储与读写

    二、业务需求背景介绍 为方便数据治理、元数据管理及数据质量监控,将调度系统生成的数仓血缘保存起来。 血缘数据流程 从采集、存储到平台展示的数据全流程: [血缘数据流程] 在查询平台的部分数据查询展示 [数据查询展示] 三、我的具体实践 1、版本选择 这里我们采用了 Nebula v3.0.0、Nebula 4、数据导入 目前分两种情况更新数据。 a. 定时调度矫正数据 通过 MySQL 中的血缘关系,通过 Spark 任务定时校正 Nebula 数据,更新数据同样通过 Spark Connector 实现。 5、数据平台查询 数据平台查询血缘的应用: a. 获取 Nebula 数据实现过程 通过初始化连接池 Nebula pool,实现单例工具类,方便在整个项目中调用并使用 Session。

    17120

    Atlas血缘分析在数据仓库中的实战案例

    Hi,我是王知无,一个大数据领域的原创作者。 目录 一、应用 1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 4.1 Hive Hook 4.1.1 设置Atlas配置目录 4.1.2 设置环境变量 4.1.3 把压缩包上传 4.1.4 解压包 4.1.5 添加Hive的第三方依赖包 4.1.6 导入Hive数据 1.3 atlas血缘分析 说明:通过对比,Atlas能够更加准确地解析所有脚本SQL语句,在全局角度能够看到上下游关系,不过自己手动维护的好处的是能够更加方便地迭代维护。 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系 说明:强大地血缘关系可以直接查看出整条字段的数据链路。

    82711

    数据血缘关系:图数据库Neo4j存储实现

    数据血缘关系包含了集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系,其指向数据的上游来源,向上游追根溯源。 同时数据血缘关系可与数据质量监控系统进行完美的整合,重要数据质量检测异常结果可通过数据血缘关系直接定位影响范围。 在生成数据血缘关系过程中或之上应用可包括以下功能应用: 数据血缘关系: 数据血缘关系层级分类:集群、系统、表、字段血缘关系 数据血缘关系上卷、下钻 字段向上溯源检索:定位集群、系统、表、字段多层级别粒度展示 数据血缘关系实例讲解 本例两张表字段直接简单映射,形成数据血缘关系。 总结 本篇讲述了数据血缘关系使用Neo4j存储,并给出例子实现创建血缘关系创建语句,实际应用中数据血缘关系是通过数据加载进去的。

    1.5K30

    你了解你的数据吗(元婴篇):血缘分析

    本篇将引入一个新的概念:数据血缘分析 ,或者叫血统分析。 0x01 血缘分析 那么什么是数据血缘分析呢?在这里我们不给出它的严谨的定义,仅从感觉上来解释一下这个东西。 上面的过程是数据血缘分析的过程。 0x02 数据血缘分析有什么用??? 咋一看,其实感觉数据血缘分析并没有什么用,其实就我个人感觉来看,其实的确没什么用,特别是在你的业务规模比较小并且数据合作不频繁的情况下,基本不需要数据血缘分析。 但是当遇到了下面一些场景的时候,数据血缘绝对能帮你提高很高的效率。 问题定位。上面的例子,假设你用到了别人的数据数据血缘分析能快速帮你定位到问题。 理解数据。 其实总的说来,数据血缘能帮你更好地理解自己的数据! 0x03 关于实现 实现的话不打算在这里多聊,因为数据血缘一般是和元数据管理紧紧绑定起来的,在设计元数据管理系统的时候应该要考虑到数据血缘的内容。

    6.1K83

    Atlas血缘分析在数据仓库中的实战案例

    目录 一、应用 1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 4.1 Hive Hook 4.1.1 设置Atlas配置目录 4.1.2 设置环境变量 4.1.3 把压缩包上传 4.1.4 解压包 4.1.5 添加Hive的第三方依赖包 4.1.6 导入Hive数据 JOIN dw.dw_zbchannel tp ON t2.pageid = tp.channelid ) t3 ) t4 WHERE rk = 1; 1.2 手写的数据地图 1.3 atlas血缘分析 说明:通过对比,Atlas能够更加准确地解析所有脚本SQL语句,在全局角度能够看到上下游关系,不过自己手动维护的好处的是能够更加方便地迭代维护。 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系 说明:强大地血缘关系可以直接查看出整条字段的数据链路。

    40310

    数仓字段血缘解析实现—hive版

    【本文大纲】 1、字段血缘分析的意义 2、实现方案选择 3、实现过程 4、总结 字段血缘分析的意义 数仓经常会碰到的两类问题: 1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来 ,处理条件是什么,最后才能分析出问题原因 ——数据回溯问题 2、基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后在做方案 —— 影响分析问题 这两类问题都属于数据血缘分析问题 ,数据血缘分析还有其它的积极意义,比如: 问题定位分析 类似于影响分析,当程序运行出错时,可以方便找到问题的节点,并判断出问题的原因以及后续的影响 指标波动分析 当某个指标出现较大的波动时,可进行溯源分析 ,判断是由哪条数据发生变化所导致的 数据体检 判定系统和数据的健康情况,是否存在大量的冗余数据、无效数据、无来源数据、重复计算、系统资源浪费等问题 数据评估 通过血缘分析和元数据,可以从数据的集中度、分布 代码 研究hive hooks 的api时,发现hive已经实现了一个血缘关系的hook: ? 只是这个hook 是把相关的依赖写在了 log里: ?

    3.2K70

    0819-使用CDP7.1.3的Atlas采集CDH5.15.1的元数据血缘

    作者:谢敏灵 Atlas元数据采集框架 ? 目的 基于以上框架,使用CDP的Atlas采集CDH5的元数据血缘,理论上只需要将相应的Atlas Hook正确部署到CDH5对应的服务上即可。 本文以采集Hive元数据血缘为例,描述如何部署Atlas Hive Hook到CDH5上。 验证环境 CDP 7.1.3集群。 create table default.test_hook_cdp_2 as select * from default.test_hook_cdp_1; 登录CDP的Atlas Web UI,验证元数据血缘的采集情况 : 采集到了CDH的default数据库的元数据: ? 采集到了CDH的test_hook_cdp_1和test_hook_cdp_2表的元数据 ? 采集到了表级血缘: ? 采集到了字段级血缘: ?

    1.2K40

    Spark SQL 字段血缘在 vivo 互联网的实践

    作者:vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 平台计划将 Hive 任务迁移到 Spark SQL 上,同时也需要实现字段血缘的功能。 SparkSessionExtensions => Unit) { override def apply(spark: SparkSessionExtensions): Unit = { //字段血缘 我们将字段血缘分为两种类型:projection(select查询字段)、predication(wehre查询条件)。 这两种是一种点对点的关系,即从原始表的字段生成目标表的字段的对应关系。

    35920

    0797-使用HDP或CDP的Atlas采集CDH6的元数据血缘

    作者:谢敏灵 Atlas元数据采集框架 ? 目的 基于以上框架,使用HDP或CDP的Atlas采集CDH6的元数据血缘,理论上只需要将相应的Atlas Hook正确部署到CDH6对应的服务上即可。 本文以采集Hive元数据血缘为例,描述如何部署Atlas Hive Hook到CDH6上。 验证环境 HDP 3.1.5集群。 create table default.test_hook_hdp_2 as select * from default.test_hook_hdp_1; 登录HDP的Atlas Web UI,验证元数据血缘的采集情况 采集到了CDH的test_hook_hdp_1和test_hook_hdp_2表的元数据: ? 采集到了表级血缘: ? 采集到了字段级血缘: ? 采集到了CDH的test_hook_cdp_1和test_hook_cdp_2表的元数据: ? 采集到了表级血缘: ? 采集到了字段级血缘: ?

    1.5K30

    数据机遇还是忽悠?

    持反方观点,为技术时代的到来欢呼的,一位是北京大学光华管理学院新媒体营销研究中心副主任苏萌,另一位是日本政治家、内阁成员山本一太。 他提出“一台电脑论”,即科学家们研究所需的数据,最好用一台电脑就能装下,否则数据处理会过于繁琐,无助于解决问题。他结合自身经验说,随着数据量的增大,研究的准确性一开始会随之上升,但很快就会趋平。 这有三个原因:一是因为不同机构间的数据还未真正流动起来,目前还只是数据“孤岛”;二是完整的生态产业链还未形成,尽管通过行为数据分析已能够分辨出一个消费者的喜好,但从供应到购买的链条还没建成;三是因为数据分析人才仍然极度匮乏 一位听众挑战正方,说,你们认为大数据过于庞杂纷繁,反而解决不了问题,那是不是说,当处理数据的计算工具变得足够好时,大数据就会变得有用? 正如Howard在发表“失败感言”时所说,“我们并非反对数据,只是反对大而无当的数据数据本身当然非常重要”。人类已经并将继续产生日益庞大的数据,或许不论我们接受与否,大数据时代都已到来。

    58180

    :UBER数据迁徙

    数据迁移的日期定为万圣节(10月31日),而这恰是交通量会非常高的一天。 上面图中的大问题是:我们仍然依赖于单一的PostgreSQL (数据库管理系统)来存储大部分的数据。下面的饼图显示了数据是如何在数据库中分配的: ? 我们评估了各种NoSQL(不同于传统的关系数据库的数据库管理系统的统称)的具有上述特点风格的数据库。 追加(无更新)数据模型:它仅支持一个只追加数据模型中,一旦它被写入后,就不能进行修改。这对于存储交易数据,并希望防止数据损坏的系统是非常有用的。由于是只追加模型,修改会自然幂等和交换。 在真正可以开始迁移之前,第一个任务是从用户身份到用户唯一识别码的迁移,因为原代码依赖于自动递增的PostgreSQL 数据库标识符。几百条SQL查询需要被重写。

    45370

    数据价值机遇大变革

    数据价值机遇大变革 2017-3-26 张子阳 推荐: 1 难度: 1 ? 这本书就像一个印刷出来的PPT,字体比较大,留白比较多,大量图片,全彩印刷。 概括起来有下面这些要点: 数据量正指数级别增长。大数据时代已经来临。 大数据特点:存储量大、计算量大、增长速度快、类型多样化。 制造业应用:给挖掘机安装GPS和数据上传系统,统计挖掘机每月的工作时长。然后根据大量用户的实际使用数据,来判断市场是否有过剩的风险。 银行业应用:反诈骗系统。 数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 相对稳定:数据一旦进入数据仓库以后,一般很少进行修改,更多地是对信息进行查询操作。 反映历史变化:不只是反映企业当前的状态,而是记录了过去某一点到当前各个阶段的信息。

    25040

    相关产品

    • 大数据处理套件

      大数据处理套件

      腾讯大数据处理套件(TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。你可以根据不同数据处理需求选择合适的大数据分析引擎和相应的实时数据开发、离线数据开发以及算法开发服务,来构建您的大数据应用服务……

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券