首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据治理:白话打通对Atlas的理解

问题导读 1.Atlas是什么? 2.Atlas能干什么? 3.Atlas血统关系是什么? Atlas现在被企业使用的越来越多,我们可能听说过,但是具体它是什么,能干什么的,我们可能不清楚。 因此我们要解决第一个问题,Atlas是什么? Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 上面我们或许听着比较懵圈,都是啥,元数据治理是啥?为啥要元数据治理?元数据不就是用来描述数据的数据,我们这么理解没有错的,不过这个是其中重要的一项。比如Hive的元数据,那是需要第三方数据库的,大多存储到mysql中。为啥又出来一个Atlas,它能管理Hive的元数据吗?别说,还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题,Atlas能干什么?。 Atlas能干什么? 其实很多大数据组件都有元数据管理,比如: Hive保存在外部数据库中,比如Mysql Hadoop元数据保存在Namenode,元数据的存储格式:data/hadoopdata/目录下 name:元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中 等等以上,我们的元数据每个大数据组件都有保存的地方,为啥还需要Atlas。 上面元数据是为了功能而生,都是单独的系统,散落在各个组件中,而我们能不能把这些元数据统一管理,而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到,那就更好了。看到这些有什么好处?比如我们想找到Hive有哪些表,想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas,用来管理元数据的平台。 我们知道了Atlas是什么,能干什么,可能是比较通透了。可是还不够详细,那么接下来我们看看Atlas有哪些功能,有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

01
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【入门必备】自学编程,如何做到无师自通?

    又到开学季,无数莘莘学子开始了他乡求知的旅途。求学生活你要怎么开始呢?你是要先享受来之不易的求学生活呢还是继续为人生目标而奋斗。闲言少叙,当今社会一步拉下很有可能步步落后。得有忧患意识。谁也不想上完大学结果被大学给上了,毕业季很有可能就是失业季。 每个人都有自己的理想和人生目标,编程也可能是你的一个选择,路是走出来的,知识是学出来的。 如何自学编程无师自通?学习固然重要,但学习方法更重要。我起初学习的时候走过不少弯路,虽然本身是计算机专业的。刚开始也是啥是编程没有概念,纯粹为学习而学。基本上徘徊了很长一

    010

    一分钟快速入门openstack

    一、它是什么,能干什么 想认识一个事物,必须先弄明白它是什么,能干什么。 首先说一下,openstack是一个搭建云平台的一个解决方案,说他不是个软件,但是我觉得说是一个软件,能够让初学者更容易接受和理解,在后期的慢慢接触过程中,大家就能够理解,为什么说它不是一个软件。openstack能干什么,可以搭建公有云,私有云,企业云。(顺便说一下,企业云将是openstack的用武之地) 二、openstack组成 上面是一个整体的认识,想进一步了解openstack,就必须了解它的组成。其实这有点像研究生物。一般生物都有眼睛,鼻子,嘴等。那么openstack,都有什么。openstack更像是经过计算机的72变之后的产物。包括:7个核心组件:Compute(计算), Object Storage(对象存储),Identity(身份认证),Dashboard(仪表盘), Block Storage(块存储), Network(网络) 和 Image Service(镜像服务) 。 上面从计算机的角度做一个比喻,有不恰当的地方,大家多指正。Compute类似计算的内存;Object Storage类似存储器;Identity就像登陆过程中,验证用户名和密码;Dashboard就操作界面;Network这个大家很容易就明白。 三、openstack组件代号 上面各个组件有名字,其实熟悉openstack的都会说他们的代号。也就是专业术语。Compute(代号为“Nova”) Identity(代号为“Keystone”) Dashboard(代号为“Horizon”) Image Service(代号为“Glance”) Network(代号为“Quantum”) Object Storage(代号为“Swift”) Block Storage(代号为“Cinder”) 四、openstack组件详细介绍 上面了解了,就差不多有点熟悉openstack了。想进一步认识,必须不能着急。下面进一步详细介绍各个组件的作用: (1)Nova 这个是最核心的,Nova最开始的时候,可以说是一套虚拟化管理程序,还可以管理网络和存储。 (2)keystone 这是提供身份认证和授权的组件。任何系统,身份认证和授权,其实都比较复杂。尤其Openstack 那么庞大的项目,每个组件都需要使用统一认证和授权。 目前keystone 要做的东西其实还是很多。没法基于角色的授权,web管理用户等。 (3)Dashboard (代号为“Horizon”) 为所有OpenStack的服务提供了一个模块化的web-based用户界面。使用这个Web GUI,可以在云上完成大多数的操作,如启动实例,分配IP地址,设置访问控制等。 (4)Glance 这是镜像管理。 目前Glance的镜像存储,支持本地存储,NFS,swift,sheepdog和Ceph,基本是够用了。 目前Glance的最大需求就是多个数据中心的镜像管理,如何复制,不过这个功能已经基本实现。还有就是租户私有的image管理,这些目前功能都已经实现。 个人感觉:Glance后续基本就是一个bug修复,稳定的阶段。 (5)Quantum 这是网络管理的组件,也是重头戏,Openstack的未来,基本都要靠quantum。上面介绍nova的时候,说过网络相关的内容,都会交给Quantum。不过Quantum的开发进度不是太如人意。Flosom规划实现功能,到Grizzly才实现。未来nova network的代码清理,估计到H版本都不见得可以实现。 Quantum 后端可以是商业产品或者开源。开源产品支持Openvswitch,和linux bridge。网络设备厂商都在积极参与,让他们的产品支持Quantum。 (6)Swift 这是对象存储的组件。对于大部分用户来说,swift不是必须的。你只有存储数量到一定级别,而且是非结构化数据才有这样的需求。很多人都问一个相同的问题:是否可以把虚拟机的存储放在swift上。简单回答:不行。你需要搞明白对象存储是干啥,擅长那些地方,那些是不行的。 swift是Openstack所有组件了最成熟的,可以在线升级版本,各种版本可以混合在一起,也就是说,1.75版本的swift可以和1.48的在一个群集里.这个是很难得的. (7)Cinder 这是存储管理的组件。Cinder存储管理主要是指虚拟机的存储管理。

    02

    如果明天失业了,该怎么办?

    对于家里没矿、拆不了迁、拼不了爹妈爷奶的普通打工人,工作的首要目标就是养家糊口,为了生活,尤其是人到中年,上有老下有小,身上有车贷房贷,不敢生病,不敢请假。最近朋友圈看到很多关于寒意的内容,比如《我,阿里P7,找不到工作》,XX公司整部门裁员,应届生是重灾区等等。于是,一时间,“有工作”好像就已经是得天独厚的优势了,曾经经常在朋友圈吐槽公司、吐槽领导的人,甚至开始感激公司“不杀之恩,多谢收留”。开始打鸡血努力工作,保自己,保老板。于是,就在思考一个问题,如果我明天失业了,准备怎么办?有句古话叫“置之死地而后生”,提前想想这个问题,或许当这一天真的来了的时候,才不至于猝不及防,难以应对。

    03
    领券