元数据管理开源_开源元数据管理_元数据管理系统开源 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一体化元数据管理平台——OpenMetadata入门宝典

大家好，我是独孤风，一位曾经的港口煤炭工人，目前在某国企任大数据负责人，公众号大数据流动主理人。在最近的两年的时间里，因为公司的需求，还有大数据的发展趋势所在，我开始学习数据治理的相关知识。今天给大家分享一体化的元数据管理平台——OpenMetadata。

04

一体化元数据管理平台——OpenMetadata入门宝典

大家好，我是独孤风，一位曾经的港口煤炭工人，目前在某国企任大数据负责人，公众号大数据流动主理人。在最近的两年的时间里，因为公司的需求，还有大数据的发展趋势所在，我开始学习数据治理的相关知识。今天给大家分享一体化的元数据管理平台——OpenMetadata。

01

您找到你想要的搜索结果了吗？

是的

没有找到

元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

大家好，我是独孤风。元数据管理平台层出不穷，但目前主流的还是Atlas、Datahub、Openmetadata三家，那么我们该如何选择呢？

01

元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

大家好，我是独孤风。元数据管理平台层出不穷，但目前主流的还是Atlas、Datahub、Openmetadata三家，那么我们该如何选择呢？

01

统一元数据：业界方案设计概览

针对元数据管理系统，各类开源方案在业界层出不穷，本文将列举和对比几个业内比较流行的元数据管理组件：

03

【开源项目】轻量元数据管理解决方案——Marquez

又到了本周的开源项目推荐。最近推荐的元数据管理项目很多，但是很多元数据管理平台的功能复杂难用。那么有没有轻量一点的元数据管理项目呢？今天为大家推荐的开源项目，就是一个轻量级的元数据管理工具。虽然轻量，但是元数据的收集、展示、数据血缘等功能都是支持的。让我们一起来看看吧~

01

使用Atlas进行元数据管理之Atlas简介

谈到数据治理，自然离不开元数据。元数据(Metadata)，用一句话定义就是：描述数据的数据。元数据打通了数据源、数据仓库、数据应用，记录了数据从产生到消费的全过程。因此，数据治理的核心就是元数据管理。

04

数据治理实践：元数据管理架构的演变

近几年来数据的量级在疯狂的增长，由此带来了系列的问题。作为对人工智能团队的数据支撑，我们听到的最多的质疑是 “正确的数据集”，他们需要正确的数据用于他们的分析。我们开始意识到，虽然我们构建了高度可扩展的数据存储，实时计算等等能力，但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。

03

BIGO 的数据管理与应用实践

本文整理自 BIGO 在 nMeetp 上的主题分享，主要介绍 BIGO 过去一年在数据管理建设方面的理解和探索。而 BIGO 数据管理的核心重点在于元数据平台的建设，用以支撑上层数据管理和建设应用，包括数据地图、数据建模、数据治理和权限管理等等。本文主要围绕以下五个方向展开：

02

数据治理实践：元数据管理架构的演变

近几年来数据的量级在疯狂的增长，由此带来了系列的问题。作为对人工智能团队的数据支撑，我们听到的最多的质疑是 “正确的数据集”，他们需要正确的数据用于他们的分析。我们开始意识到，虽然我们构建了高度可扩展的数据存储，实时计算等等能力，但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。

01

国产开源一个开源,免费在线数据建模,元数据管理平台,简单易用

ERD Online 是全球第一个开源、免费在线数据建模、元数据管理平台提供简单易用的元数据设计、关系图设计、SQL查询等功能，辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据特性 📦 开箱即用：将注意力集中在数据结构设计上 🌱 团队协作：三级权限（拥有者、管理员、普通角色）管理，元素级权限控制 📋 元数据设计：快速复制已有表结构、JSON 生成表，表默认字段、默认大小写等控制 🏷 元数据管理：在线管理表结构，支持正向向数据库执行 🎨 元数据解析：

03

元数据管理在数据仓库的实践应用

导读：元数据管理是企业数据治理的基础，是数据仓库的提升。作为一名数据人，首要任务就是理解元数据管理。

02

一站式元数据治理平台——Datahub入门宝典

随着数字化转型的工作推进，数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台，Datahub在近一年的时间里发展迅猛，大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少，大部分公司想使用Datahub作为自己的元数据管理平台，但可参考的资料太少。

03

详解如何在数仓中管理元数据

大家好，我是一哥，元数据管理是企业数据治理的基础，是数据仓库建设的关键。作为一名数据人，首要任务就是理解元数据管理。

02

数据资产为王，如何解析企业数字化转型与数据资产管理的关系？

随着企业数字化转型的深入，数据体量爆炸式增长，如何控制数据生产成本、发现有价值的数据，提高数据ROI，成了企业数字化转型中后期的关键任务，这也是数据资产管理的终极目标。

04

数据治理：白话打通对Atlas的理解

问题导读 1.Atlas是什么？ 2.Atlas能干什么？ 3.Atlas血统关系是什么？ Atlas现在被企业使用的越来越多，我们可能听说过，但是具体它是什么，能干什么的，我们可能不清楚。因此我们要解决第一个问题，Atlas是什么？ Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。上面我们或许听着比较懵圈，都是啥，元数据治理是啥？为啥要元数据治理？元数据不就是用来描述数据的数据，我们这么理解没有错的，不过这个是其中重要的一项。比如Hive的元数据，那是需要第三方数据库的，大多存储到mysql中。为啥又出来一个Atlas，它能管理Hive的元数据吗？别说，还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题，Atlas能干什么？。 Atlas能干什么？其实很多大数据组件都有元数据管理，比如： Hive保存在外部数据库中，比如Mysql Hadoop元数据保存在Namenode，元数据的存储格式：data/hadoopdata/目录下 name：元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中等等以上，我们的元数据每个大数据组件都有保存的地方，为啥还需要Atlas。上面元数据是为了功能而生，都是单独的系统，散落在各个组件中，而我们能不能把这些元数据统一管理，而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到，那就更好了。看到这些有什么好处？比如我们想找到Hive有哪些表，想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas，用来管理元数据的平台。我们知道了Atlas是什么，能干什么，可能是比较通透了。可是还不够详细，那么接下来我们看看Atlas有哪些功能，有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

01

简评 WhereHows 为什么失败

DataHub 是由领英的数据团队开源的一款提供元数据搜索与发现的工具。现在的 DataHub 是由 WhereHows 演变过来的。

03

2022 IoTDB Summit：IoTDB PMC Chair 黄向东《Apache IoTDB 1.0 全新版本》

12 月 3 日、4日，2022 Apache IoTDB 物联网生态大会在线上圆满落幕。大会上发布 Apache IoTDB 的分布式 1.0 版本，并分享 Apache IoTDB 实现的数据管理技术与物联网场景实践案例，深入探讨了 Apache IoTDB 与物联网企业如何共建活跃生态，企业如何与开源社区紧密配合，实现共赢。

01

Datahub 0.8.5发布! 通用的元数据搜索和发现工具

近期Datahub 发布了最新的版本0.8.5，作为LinkedIn开源的通用的元数据搜索和发现工具。Datahub近一年来有了巨大的发展，也成为了很多公司进行元数据管理的调研方向并进行使用的选择。

02

Datahub 0.8.5发布! 通用的元数据搜索和发现工具

近期Datahub 发布了最新的版本0.8.5，作为LinkedIn开源的通用的元数据搜索和发现工具。Datahub近一年来有了巨大的发展，也成为了很多公司进行元数据管理的调研方向并进行使用的选择。

03

数据治理（五）：元数据管理

元数据（Metadata），通常的定义为"描述数据的数据"。元数据打通了源数据、数据仓库、数据应用，记录了数据从产生到消费的全过程。元数据管理是数据治理的核心。

06

大数据治理——搭建大数据探索平台

在数据治理中，数据探索服务的价值在初期往往是被忽视的，但是随着业务的增加，分析人员的增加，数据探索服务的价值就会越来越大。

01

【每日精选时刻】Maven版本冲突；张三的并发编程实践；DDD的意义何在？

大家吼，我是你们的朋友煎饼狗子——喜欢在社区发掘有趣的作品和作者。【每日精选时刻】是我为大家精心打造的栏目，在这里，你可以看到煎饼为你携回的来自社区各领域的新鲜出彩作品。点此一键订阅【每日精选时刻】专栏，吃瓜新鲜作品不迷路！ *当然，你也可以在本篇文章，评论区自荐/推荐他人优秀作品（标题+链接+推荐理由），增加文章入选的概率哟~

01

元数据管理实践&数据血缘

什么是元数据？元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务的血缘关系，用户和脚本／任务的权限映射关系信息等等。

04

元数据管理与数据血缘

什么是元数据？元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务的血缘关系，用户和脚本／任务的权限映射关系信息等等。

01

Kylin的技术框架

kylin是一个MOLAP系统，通过预计算的方式缓存了所有需要查询的的数据结果，需要大量的存储空间（原数据量的10+倍）。一般我们要分析的数据可能存储在关系数据库、HDFS上数据、文本文件、excel 等。kylin主要是对hive中的数据进行预计算，利用hadoop的mapreduce框架实现。

04

EMR(弹性MapReduce)入门之其他组件使用和排障（十二）

服务器启动时，Impalad与StateStore保持心跳。首先Impala节点会将自己节点的状态信息汇报给Statestore，Statestore实时监控impalad是否发生故障。然后Catalog与Hive进行通信，将Hive中Metastore中的元数据信息拉取到自己的字节上，然后以广播的形式发送给每个状态良好的Impalad节点上，使各个节点上的元数据保持一致。然后当客户端进行提交sql请求的时候，不会再向那个hive中进行MRjob了，而是直接作用在Impalad上，直接在impalad上生成执行计划数，进行快速查询。Impalad由于作用在HDFS上或者HBase上的，所以不许转换成MR job的sql请求时非常快的了。Query任务的执行直接是作用在HDFS上的。

01

2020年那些关于元数据的文章

2020 年是元数据管理兴起的一年。在 Datakin 你可以看到元数据管理的发展历史。在前人努力的基础上，Datakin 和其它的开源数据血缘以及架构软件，比如 Airflow，Amundsen，Datahub，dbt，Egeria，Great Expectations，Iceberg，Marquez，Pandas，Parquet，Prefect，Spark 和 Superset 宣布开放血缘（Open Lineage）倡议。

02

2022，数据科学与数据治理项目全纪录

2022年已过去一半多的时间了。这半年多，我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具，了解了他们在数据治理领域的作用。

02

数据资产为王，如何解析企业数字化转型与数据资产管理的关系？

随着企业数字化转型的深入，数据体量爆炸式增长，如何控制数据生产成本、发现有价值的数据，提高数据 ROI，成了企业数字化转型中后期的关键任务，这也是数据资产管理的终极目标。

02

2022，数据科学与数据治理项目全纪录

2022年已过去一半多的时间了。这半年多，我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具，了解了他们在数据治理领域的作用。

02

数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

05

统一元数据：元模型定义、元数据采集

元数据管理可分为如下5个流程步骤：元模型定义、元数据采集、元数据加工、元数据存储、元数据应用。其中，元模型定义是整个元数据管理的前提和规范，用于定义可管理的元数据范式。元数据采集是元数据来源的重要途径，提供可管理的元数据原料，而如何进行可扩展且高效的元数据采集也是元数据管理的难点之一。本文将主要针对元模型定义、元数据采集两个模块进行详细说明。

04

元数据新型存储架构的探索

一个软件产品存储架构是需要仔细斟酌和考虑的事情，既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初主要支持关系型的数据管理到现在的大数据平台、数据湖、微服务这种新的数据架构形态的管理。原有的存储架构从分析元数据关系效率、检索速度都不能满足应用的需求了。

04

现代元数据平台

这是一个新概念：The Modern Metadata Platform，直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生，是其中的一部分。

03

OushuDB 小课堂丨数据治理中数据建模的未来

在创建或改进数据治理程序时，数据建模过程发挥着越来越重要的作用。数据治理变得极其复杂，数据建模的使用促进了理解。复杂性增加的一个基本原因是出于研究目的对数据分析的广泛使用。另一个原因是遵守为互联网业务制定的法律法规。

01

数据管理和存储的分离对企业有什么影响?

从存储中分离数据管理有明显的优势。人们需要了解这种新方法如何使这些操作更简单、运行成本更低。

05

两位新晋Committer的“升级攻略”

2022年5月24日-27日，经 Apache IoTDB 社区投票，周钰坤、谢其骏陆续成为 Apache IoTDB Committer 。今天和大家分享他们两位与 Apache IoTDB 的故事。

03

别人家的元数据系统是怎么设计的

0x00 前言本篇分享是元数据管理的内容，主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin 在2016年新开源的项目：WhereHows，当然也有笔者的一点理解。 Google 的论文整体描述十分详细，可以作为理论来学习，LinkedIn 已经开源了一个版本的系统，可以看成最佳实践。两者结合起来，还是很能拓展思路的。不太清楚 Google 和 Linkedin 真实的系统做成什么样，是不是像 Gfs 那样自己已经

数据治理是什么？该如何入门呢？

大家好，我是独孤风，一位曾经的港口煤炭工人，目前在某国企任大数据负责人，公众号大数据流动主理人。

01

数据治理是什么？该如何入门呢？

大家好，我是独孤风，一位曾经的港口煤炭工人，目前在某国企任大数据负责人，公众号大数据流动主理人。

03

元数据管理平台Datahub2022年度回顾

元数据管理平台，Datahub在2022年有了巨大的发展。近期Datahub官方做了一下2022年的回顾，我这里也挑选一些有价值的内容跟大家分享一下。

03

Data Fabric，下一个风口？

Data Fabric，又名数据经纬，是近期横空出世的一个概念。之前对其了解甚少，近期做了个小调研，对这一概念内涵与外延、产品及定位、业务与前景、未来及趋势等做了简单整理总结，分享给大家。

04

Hadoop生态元数据管理平台——Atlas2.3.0发布！

大家好，我是独孤风。今天我们来聊一下另一个元数据管理平台Apache Atlas。Atlas其实有一些年头了，是在2015年的时候就开源。

04

Gartner：2019数据和分析技术十大趋势预测

增强分析、持续型智能和可解释型人工智能(AI)是未来三到五年内数据和分析技术中最具颠覆性潜力的趋势。

04

元数据核心架构解析（PPT）

大家好，很高兴在这里和大家探讨和分析元数据管理的技术和想法。本次分享的内容包括以下三部分：首先，通过以下这张片子我们先看一下传统元数据管理都在管哪些内容。由于元数据管理是随着数据仓库建设过程逐渐完

09

企业如何按需选择元数据管理工具？

在各种数字化的影响下，将企业环境中的各种元数据整合利用至关重要。对于企业来说，选择适合自己的元数据管理工具将能最大化发挥元数据的作用，以协助企业完成在数据方面的战略目标。

03

Apache Kylin原理与架构

Apache Kylin是一个开源的大数据分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力（可以把Kylin定义为OLAP on Hadoop）。Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目，是第一个由中国团队完整贡献到Apache的顶级项目。

02

元数据是什么？举例告诉你哪种方式更适合元数据的录入

元数据，一个简单的定义是描述数据的数据。在企业中，无论哪里有数据，都有相应的元数据。只有存在完整而准确的元数据，我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据，TaskCtl小编针对元数据的类型，举例说明什么是元数据。

05

饿了么元数据管理实践之路

元数据打通数据源、数据仓库、数据应用，记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息（也就是MetaStore）；动态的任务、表依赖映射关系；数据仓库的模型定义、数据生命周期；以及ETL任务调度信息、输入输出等。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭