在大型数据仓库和数据湖中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。
0x00 前言 本篇是《你了解你的数据吗》的第五篇,在前面的几篇文章中,我们聊到了数据接入量、数据的坑、数据核心维度分布、数据口径和数据质量监控。本篇将引入一个新的概念:数据血缘分析 ,或者叫血统分析。 0x01 血缘分析 那么什么是数据血缘分析呢?在这里我们不给出它的严谨的定义,仅从感觉上来解释一下这个东西。 数据血缘,我们可以大致理解为是一个表的生成过程。它依赖了哪些表,怎么生成的。同时加上它依赖的表又是怎么生成的。 觉个栗子 下面举个栗子来解释一下。 现在假设你是一只数据开发工程师,为了满足一次
开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献。
如果我说:元数据(Meta Data),就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」,内心可能会浮现这样的想法:
1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数据回溯问题
大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。
元数据,一个简单的定义是描述数据的数据。在企业中,无论哪里有数据,都有相应的元数据。只有存在完整而准确的元数据,我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据,TaskCtl小编针对元数据的类型,举例说明什么是元数据。
大家好,我是一哥,元数据管理是企业数据治理的基础,是数据仓库建设的关键。作为一名数据人,首要任务就是理解元数据管理。
导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。
数据即资产的概念已被大多数人所接受,有效的数据治理是形成优质数据资产的必要条件,而元数据管理又是数据治理的基础。那么,元数据管理具体有哪些应用呢?本篇文章我们将通过一些具体场景来科普一波。
本文整理自 Dinky 实时计算平台 Maintainer 亓文凯老师在 Apache Doris & Apache SeaTunnel 联合 meetup 的实践分享,通过 Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台。
目前 Flink 社区正如火如荼的发展,但苦于没有一款适合 Flink SQL 界面化开发的工具,于是增加了 Flink 的门槛与成本。虽然官方提供了 SQL Client,但仍有很多局限与不方便。
Apache Flink 1.14 即将来袭,与此同时 Dlink 也带来了最新的进展,试图使 FlinkSQL 更加丝滑。
作者 | 付帅 策划 | 凌敏 业务背景 橙联股份是一家服务全球跨境电商的科技公司,致力于通过市场分析、系统研发及资源整合,为客户提供物流、金融、大数据等多方面的服务产品,为全球跨境电商提供高品质、全方位的服务解决方案。 随着公司业务的发展和数据的不断增长,早期基于 MySQL 的传统数仓架构已经无法应对公司数据的快速增长。业务的需求和运营的决策对于数据时效性的要求越来越高,对数仓准实时能力的需求越发强烈。 为了适应快速的增长需求,橙联于 2022 年正式引入 Apache Doris,以 Apac
本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。
Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。
数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。数据血缘是元数据的组成部分之一。它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。可用于分析上游数据发生变化会给下游数据带来哪些影响;下游数据发生变化时追踪上游问题的源头等问题。
企业架构理论体系中,数据架构始终是企业架构的核心组成部分。TOGAF企业架构框架定义了数据架构位于业务架构与基础技术架构之间,通过数据架构的治理实现的业务和应用的有效衔接。
传统数仓定制化报表,排期周期长,响应需求慢,重复开发工作比较多。T+1的数据失效也满足不了现在互联网业务场景下对数据实时处理能力的需求。对中台平台自主化开发,可以提升数据加工能力沉淀,以及实时数据处理能力。
0x00 前言 本篇分享是元数据管理的内容,主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin 在2016年新开源的项目:WhereHows,当然也有笔者的一点理解。 Google 的论文整体描述十分详细,可以作为理论来学习,LinkedIn 已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 不太清楚 Google 和 Linkedin 真实的系统做成什么样,是不是像 Gfs 那样自己已经
Google的论文整体描述十分详细,可以作为理论来学习,LinkedIn已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 标题有点吸引人眼球的嫌疑,不过内容的确是从这两个
摘要:Dinky 0.6.1 已发布,一起来看它如何优化 Flink 应用体验。内容包括:
摘要:Dinky 0.5 已发布,它将重新定义 Apache Flink 的开发运维,让其如虎添翼,拭目以待。内容包括:
Dlink 为 Apache Flink 而生。它是一个 FlinkSQL Studio,可以在线开发、预览、执行 FlinkSQL,支持 Flink 官方所有语法及其增强语法,并且可以远程提交 Sql 作业到集群,无打包过程。
数据管控是个老生常谈的问题,一般来说,实施数据管控是为解决企业所面临的数据标准问题、数据质量问题及元数据管理问题,企业开展数据管控可以实现以下3个目标:
作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库 + 各种数据平台的方式实现。
随着云计算、大数据、物联网等技术兴起,数据朝着多样性、高体量、高速度方向发展,如何将海量数据安全、稳定、高效地数据共享出去成为各企业关注的重点。本次微课堂通过普元在数据服务共享平台研发过程中的实践,和大家分享数据服务共享发布的相关经验。
数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:
来到了 2021 年的最后一天,自 6 月 6 日开源立项到今天,历时 6 个月,Dlink 终于崭露头角。而 0.5 版本也将于一月中旬与大家相见。本文将带您领略 Dlink 的由来、发展、应用及前景,那我们就直接开始吧!
元数据(Metadata):描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。
元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。
关注腾讯云大学,了解行业最新技术动态 直播预告 8月9日 (周日) 15:00 腾讯云大学将邀请 苏宁消费金融 安全运维部负责人 顾黄亮老师 带来 《构建全链路数据度量体系 实现DevOps数据驱动闭环》 简 介 案例背景: DevOps加速了软件产品的版本交付和部署,实现端到端的持续交付,以流程驱动的方式打通端到端的交付通道。在实际践行DevOps过程中,存在交付服务重要组成部分,交付全链路数据,还采取断点的、无序的、度量性较差的传统方式,缺乏配套的全链路数据采集、管理、汇聚和输出,导致项目交付过
Dlink 是一个基于 Apache Flink 开发的 FlinkSQL Studio,可以连接多个 Flink 集群实例,并在线开发、执行、提交 FlinkSQL 语句以及预览其运行结果,支持 Flink 官方所有语法并进行了些许增强。
cxzl25,携程软件技术专家,关注大数据领域生态建设,对分布式计算和存储、调度等方面有浓厚兴趣。
在前面Fayson介绍了《Cloudera Navigator介绍与安装》,本篇文章主要介绍Navigator的四大核心功能,元数据搜索、数据溯源、审计以及数据生命周期管理功能。当然Navigator还一个重要的功能就是进行数据加密,因为涉及内容较多,也稍微复杂一些,所以本文这里先不介绍,Fayson会在后面的文章单独进行说明。
在多变的数据服务场景中,应用中常见如下的业务需求,通过对多种数据结构的灵活组合,快速实现业务模型构建,整体示意图如下:
在有赞大数据平台发展初期,业务量不大,开发者对业务完全熟悉,从 ETL 到统计分析都可以轻松搞定,当时没有想过要做一个元数据系统。
一个软件产品存储架构是需要仔细斟酌和考虑的事情,既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初主要支持关系型的数据管理到现在的大数据平台、数据湖、微服务这种新的数据架构形态的管理。原有的存储架构从分析元数据关系效率、检索速度都不能满足应用的需求了。
元数据是指来自企业内外的所有物理数据和知识,包括物理数据的格式,技术和业务过程,数据的规则和约束以及企业所使用数据的结构。
光阴荏苒,日月如梭,不知不觉间,Dinky 开源已经满满一周年。在这一年里,从思想的火花到实现的落地,再到各种组件与功能的扩展,是数十位贡献者的共同努力的成果,在此感谢各位贡献者与社区伙伴的支持,Dinky 定韶华不负,未来可期。
元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。
前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。
从【Flink】第二十七篇:三天撸了一个 Flink SQL 字段血缘算法 这篇文章开始,笔者开启了一个Flink SQL字段血缘实现的探索之路。但是由于当时只是针对Flink 运行时中产生的calcitetree简单分析后写出的简易版,有诸多不成熟之处,所以也没说过多的实现细节。
领取专属 10元无门槛券
手把手带您无忧上云