前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DataHub元数据管理平台概述

DataHub元数据管理平台概述

作者头像
大数据杂货铺
发布2024-01-31 17:13:54
3610
发布2024-01-31 17:13:54
举报
文章被收录于专栏:大数据杂货铺大数据杂货铺

DataHub 是一个现代数据目录,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。

以下是 DataHub 当前功能的概述。查看我们的路线图,看看接下来会发生什么。

搜索和发现

搜索数据堆栈

DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果

追踪端到端血缘

通过跟踪跨平台、数据集、ETL/ELT 管道、图表、仪表板等的血缘,快速了解数据的端到端旅程。

了解重大变更对下游依赖关系

使用影响分析主动识别哪些实体可能受到重大变更的影响。

查看元数据 360一目了然

结合技术逻辑元数据,提供数据实体的 360° 视图。

生成数据集统计信息以了解数据的形状和分布

从远大前程等工具捕获历史数据验证结果

利用 DataHub 的架构版本历史记录来跟踪数据物理结构随时间的变化

现代数据治理

实时治理

操作框架支持以下实时用例:

·通知:当 DataHub 上发生更改时生成组织特定的通知。例如,当“PII”标签添加到任何数据资产时,向治理团队发送电子邮件。

·工作流程集成:将 DataHub 集成到组织的内部工作流程中。例如,当在数据集上提出特定标签或术语时,创建 Jira 票证。

·同步:将DataHub 中所做的更改同步到第 3 方系统。例如,将DataHub中添加的Tag反映到Snowflake中。

·审核:审核谁在 DataHub 上随时间进行了哪些更改。

管理实体所有权

快速轻松地将实体所有权分配给用户和用户组。

使用标签、术语表和域

使数据所有者能够通过以下方式管理其数据实体:

1.标签:非正式的、松散控制的标签,用作搜索和发现的工具。没有正式的中央管理。

2.词汇表术语:具有可选层次结构的受控词汇表,通常用于描述核心业务概念和度量。

3.域:精选的顶级文件夹或类别,广泛用于数据网格中,按部门(即财务、营销)或数据产品组织实体。

DataHub管理

创建用户、组和访问策略

DataHub 管理员可以创建策略来定义谁可以针对哪些资源执行什么操作。创建新策略时,您将能够定义以下内容:

·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或元数据(操作所有权、标签、文档等的能力)

·资源类型- 指定资源类型,例如数据集、仪表板、管道等

·权限- 选择权限集,例如编辑所有者、编辑文档、编辑链接

·用户和/或组- 分配相关用户和组;您还可以将策略分配给资源所有者,无论他们属于哪个组

UI

使用 DataHub 用户界面创建、配置、计划和执行批量元数据摄取。通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将元数据导入 DataHub。

原文链接:https://datahubproject.io/docs/features

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据杂货铺 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 搜索和发现
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档