DataHub 是一个现代数据目录,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。
以下是 DataHub 当前功能的概述。查看我们的路线图,看看接下来会发生什么。
搜索数据堆栈
DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果
追踪端到端血缘
通过跟踪跨平台、数据集、ETL/ELT 管道、图表、仪表板等的血缘,快速了解数据的端到端旅程。
了解重大变更对下游依赖关系
使用影响分析主动识别哪些实体可能受到重大变更的影响。
查看元数据 360一目了然
结合技术和逻辑元数据,提供数据实体的 360° 视图。
生成数据集统计信息以了解数据的形状和分布
从远大前程等工具捕获历史数据验证结果
利用 DataHub 的架构版本历史记录来跟踪数据物理结构随时间的变化
现代数据治理
实时治理
操作框架支持以下实时用例:
·通知:当 DataHub 上发生更改时生成组织特定的通知。例如,当“PII”标签添加到任何数据资产时,向治理团队发送电子邮件。
·工作流程集成:将 DataHub 集成到组织的内部工作流程中。例如,当在数据集上提出特定标签或术语时,创建 Jira 票证。
·同步:将DataHub 中所做的更改同步到第 3 方系统。例如,将DataHub中添加的Tag反映到Snowflake中。
·审核:审核谁在 DataHub 上随时间进行了哪些更改。
管理实体所有权
快速轻松地将实体所有权分配给用户和用户组。
使用标签、术语表和域
使数据所有者能够通过以下方式管理其数据实体:
1.标签:非正式的、松散控制的标签,用作搜索和发现的工具。没有正式的中央管理。
2.词汇表术语:具有可选层次结构的受控词汇表,通常用于描述核心业务概念和度量。
3.域:精选的顶级文件夹或类别,广泛用于数据网格中,按部门(即财务、营销)或数据产品组织实体。
DataHub管理
创建用户、组和访问策略
DataHub 管理员可以创建策略来定义谁可以针对哪些资源执行什么操作。创建新策略时,您将能够定义以下内容:
·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或元数据(操作所有权、标签、文档等的能力)
·资源类型- 指定资源类型,例如数据集、仪表板、管道等
·权限- 选择权限集,例如编辑所有者、编辑文档、编辑链接
·用户和/或组- 分配相关用户和组;您还可以将策略分配给资源所有者,无论他们属于哪个组
UI
使用 DataHub 用户界面创建、配置、计划和执行批量元数据摄取。通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将元数据导入 DataHub。
原文链接:https://datahubproject.io/docs/features