首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据治理:白话打通对Atlas的理解

问题导读 1.Atlas是什么? 2.Atlas能干什么? 3.Atlas血统关系是什么? Atlas现在被企业使用的越来越多,我们可能听说过,但是具体它是什么,能干什么的,我们可能不清楚。 因此我们要解决第一个问题,Atlas是什么? Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 上面我们或许听着比较懵圈,都是啥,元数据治理是啥?为啥要元数据治理?元数据不就是用来描述数据的数据,我们这么理解没有错的,不过这个是其中重要的一项。比如Hive的元数据,那是需要第三方数据库的,大多存储到mysql中。为啥又出来一个Atlas,它能管理Hive的元数据吗?别说,还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题,Atlas能干什么?。 Atlas能干什么? 其实很多大数据组件都有元数据管理,比如: Hive保存在外部数据库中,比如Mysql Hadoop元数据保存在Namenode,元数据的存储格式:data/hadoopdata/目录下 name:元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中 等等以上,我们的元数据每个大数据组件都有保存的地方,为啥还需要Atlas。 上面元数据是为了功能而生,都是单独的系统,散落在各个组件中,而我们能不能把这些元数据统一管理,而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到,那就更好了。看到这些有什么好处?比如我们想找到Hive有哪些表,想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas,用来管理元数据的平台。 我们知道了Atlas是什么,能干什么,可能是比较通透了。可是还不够详细,那么接下来我们看看Atlas有哪些功能,有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

01

知识图谱到底如何落地?这本书阐述企业重数据库与知识图谱的关联

来源:专知本文为书籍分享,建议阅读5分钟本书是在实践中从企业关系数据库设计和构建知识图谱的指南。 这本书是在实践中从企业关系数据库设计和构建知识图谱的指南。它提出了一个原则性框架,其核心是连接关系数据库和知识图谱的映射模式、组织中负责知识图谱的角色,以及将数据和人员组合在一起的过程。本书的内容适用于使用属性图或RDF图技术构建的知识图谱。知识图谱实现了创建大规模集成知识和数据的智能系统的愿景。科技巨头已经采用知识图谱作为下一代企业数据和元数据管理、搜索、推荐、分析、智能代理等的基础。我们现在发现,越来越多

02

Flink1.12支持对接Atlas【使用Atlas收集Flink元数据】

问题导读 1.Atlas中实体具体指什么? 2.如何为Flink创建Atlas实体类型定义? 3.如何验证元数据收集? 在Cloudera Streaming Analytics中,可以将Flink与Apache Atlas一起使用,以跟踪Flink作业的输入和输出数据。 Atlas是沿袭和元数据管理解决方案,在Cloudera Data Platform上受支持。这意味着可以查找,组织和管理有关Flink应用程序以及它们如何相互关联的数据的不同资产。这实现了一系列数据管理和法规遵从性用例。 有关Atlas的更多信息,请参阅Cloudera Runtime文档。 Flink元数据集合中的Atlas实体 在Atlas中,表示Flink应用程序,Kafka主题,HBase表等的核心概念称为实体。需要了解Flink设置中实体的关系和定义,以增强元数据收集。 为Flink创建Atlas实体类型定义 在提交Flink作业以收集其元数据之前,需要为Flink创建Atlas实体类型定义。在命令行中,需要连接到Atlas服务器并添加预定义的类型定义。还需要在Cloudera Manager中为Flink启用Atlas。 验证元数据收集 启用Atlas元数据收集后,群集上新提交的Flink作业也将其元数据提交给Atlas。可以通过请求有关Atlas挂钩的信息来在命令行中使用消息验证元数据收集。 Flink元数据集合中的Atlas实体 在Atlas中,表示Flink应用程序,Kafka主题,HBase表等的核心概念称为实体。需要了解Flink设置中实体的关系和定义,以增强元数据收集。 在向Atlas提交更新时,Flink应用程序会描述自身以及用作源和接收器的实体。Atlas创建并更新相应的实体,并从收集到的和已经可用的实体创建沿袭。在内部,Flink客户端和Atlas服务器之间的通信是使用Kafka主题实现的。该解决方案被Atlas社区称为Flink挂钩。

02

3分钟让你分清,数据管理与数据治理的区别

数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一谈。   此外,每当人们提起数据管理和数据治理的时候,还有一对类似的术语叫信息管理和信息治理,更混淆了人们对它们的理解。关于企业信息管理这个课题,还有许多相关的子集,包括主数据管理、元数据管理、数据生命周期管理等等。   于是,出现了许多不同的理论(或理论家)描述关于在企业中数据/信息的管理以及治理如何运作:它们如何单独运作?它们又如何一起协同工作?是“自下而上”还是“自上而下”的方法更高效?   为了帮

05
领券