首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据治理:白话打通对Atlas的理解

问题导读 1.Atlas是什么? 2.Atlas能干什么? 3.Atlas血统关系是什么? Atlas现在被企业使用的越来越多,我们可能听说过,但是具体它是什么,能干什么的,我们可能不清楚。 因此我们要解决第一个问题,Atlas是什么? Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 上面我们或许听着比较懵圈,都是啥,元数据治理是啥?为啥要元数据治理?元数据不就是用来描述数据的数据,我们这么理解没有错的,不过这个是其中重要的一项。比如Hive的元数据,那是需要第三方数据库的,大多存储到mysql中。为啥又出来一个Atlas,它能管理Hive的元数据吗?别说,还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题,Atlas能干什么?。 Atlas能干什么? 其实很多大数据组件都有元数据管理,比如: Hive保存在外部数据库中,比如Mysql Hadoop元数据保存在Namenode,元数据的存储格式:data/hadoopdata/目录下 name:元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中 等等以上,我们的元数据每个大数据组件都有保存的地方,为啥还需要Atlas。 上面元数据是为了功能而生,都是单独的系统,散落在各个组件中,而我们能不能把这些元数据统一管理,而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到,那就更好了。看到这些有什么好处?比如我们想找到Hive有哪些表,想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas,用来管理元数据的平台。 我们知道了Atlas是什么,能干什么,可能是比较通透了。可是还不够详细,那么接下来我们看看Atlas有哪些功能,有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

01

科普:什么是写代码?

上一篇介绍了码农就是那些从事写代码工作的人,那么什么是写代码?怎么讲呢,现在已经没有人不知道电脑了,写代码其实是人对电脑的一种服务,目的是让电脑能够好好工作,就好比农民买了一头牛,每天要喂料饮水,还要带它下地耕田、拉车运粮,总之牛虽然有一把力气,干活还必须得有人跟着。码农写代码也是充当这样的角色,工厂生产出来的电脑被搬到各行各业的机房、办公桌上,虽然插着电、号称比人脑快一亿倍,但它们并不能自己工作,还需要有人来为它服务,更具体地说,需要人写出的代码来服务它,具体就是告诉电脑先干什么再干什么,跟农民牵着牛鼻子往田里拽是一个道理。

05

生信入门第1课

我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。

03
领券