00:00
大家好啊,热爱学习的小伙伴们,我们又见面了啊。我还是那个阳光帅气的小磊老师啊,上次见面给大家讲的是这个G啊,今天给大家讲一下咱们这个大数据里边一个框架叫做这个atla啊,为什么今天给大家讲一下这个atla呢?因为最近啊在工作中啊,经常有这个同学啊找我聊天。啊,他说啊,他说什么呀,他说老师啊,最近我在找工作过程中啊,或者是在这个搭建这个疏仓项目过程中,经常被这个面试官或这个这这个产品经理问到这么几个词,我说哪几个词啊,他说这几个词听着很高大上的样子,但是我听不懂,我没有搞过啊,那基本上我总结了一下,就这么几个词呗,我给大家写一写好吧,哎,那几个词啊,一个词就是语言数据管理啊。原数据管理好吧,哎,嗯。哎,那另外一个词呢,就是这个数据质量监控,或者叫做数据治理,好吧,那我就简单写一个数据的治理啊。
01:04
治理啊,嗯,另外还有什么呀,还有这个数据字典啊,数据字典。或者叫做什么呀,或者叫做数据的资产目录啊,这个数据治理根,这个数据质量监控,它等同于一个词儿,那这个数据字典根据和那个数据的自传目录啊,也属于同一个词,好吧,基本上这三个词最近接到的同学给我给我聊起来,他说老师这几个词听起来很高大上,但是我搞不明白啊,我不知道什么叫做咱们这个收藏项目里边这个语言数据管理。那咱们接下来给大家就给大家聊一聊什么,就是这个所谓的语言数据管理好吧,啊,那咱们今天啊,讲到这个it就提前跟大家说啊,这个it就是做这个语数据管理的。那我们先来聊一聊什么叫做语言数据管理呢?那你想明白这个,你得先明白什么叫原数据啊,同学们,原数据就是是吧,这个顾名思义它就是什么呀,就是描述数据的数据。
02:05
那大家想啊,那在咱们这个数仓项目里边都有哪些元数据呢?包括咱们这个原数据是吧,一些比较重要的原数据都有哪些呢?大家都知道啊,咱们这个数仓项目一般都是拿这个have啊来做这个数仓,那大家想对于咱们这个have来讲,咱们这个数据是不是分为两部分啊,一类叫数据,咱们存在HDFS上,另外一类就是原数据,咱们存在my circleql里边。那我们have存在my circle里边的数据是不是就称之为原数据啊?那说白了就是什么呀?就是咱们数仓项目里边的数据库啊,数据表还有这个字段啊,其实无外乎就这三种,哪三种啊,我再给大家写一下好吧,就是咱们这个库,嗯。就是咱们这个库,还有这个表啊,还有这么一个字段,其实就是这三种东西。
03:00
那么为什么要做这些原数据的管理呢?大家再来思考一个问题啊,就比如说啊,你作为一个新人,你刚进公司。而且你们公司这个收仓项目,它最开始不是你搭建的,就是在你进公司里边的时候,你们的这个收藏项目已经做成了一定的规模,已经已经经过了好几拨人的迭代,那你就应该如何快速的来熟悉你们公司这些表结构呢?你会发现,哎,在你进公司刚写so号的时候是吧,有这么一个字段,它好像在好几个表里边都有这么一个字段,并且在不同的表里边儿,它代表的意思又不一样,会给你整的这个焦头烂额,非常懵啊,那因此啊,如何把这些have里边的这些所有的原数据,咱们给它做成一个数据字典就显得非常重要啊,数据字典,那什么叫字典呢?字典啊,顾名思义就是可以查询这个汉字的,那数据字典呢,就是可以查询数据的,就比如说啊,你遇到了这么一个字段,你不知道这个字段它来自于哪一张表,或者说这个字段在哪几张表里边儿有我每张表代表什么意思,那你就可以通过咱们这个数据字典来查询这个字段,那经过你这么一查询哦,你就能快速的明白我这么一个字段,它分别来自于哪几张表,甚至我这些表结构,它都有什么依赖关系,以及我这个字段之间有什么依赖关系,那这个东西是咱们想要的。
04:34
也就是咱们这个atla,他今天给他讲的这个atla这么一个作用啊,Atla就是来做这个工作的。那然后在咱们这个,其实啊,在咱们这个收藏项目里边,我们是讲过这个艾特LA的,但是啊,有同学跟我说,老师啊,那个收藏项目我学起来大概得学个十几天吧,我在工作中是没有那么长那么那么久的时间去学习那个适藏项目的,那你能不能单独出一期就针对这个atla的一个教程啊,那所以说啊,今天我就给大家单独以这个itla给你这个作为这个出发是吧,以这个从零基础来安装部署这个it,咱们给大家出这么一期视频。
05:12
那我这个视频是吧,是从这个克隆虚拟机啊,从安装这个GDK是吧,就比如说刚开始你你连那个服务器都没有,咱们那当当然咱们这个教学环境就是虚拟机了,你连一个虚拟机都没有,我是怎么通过这个克隆虚拟机,然后安装JDK,安装哈杜普是吧,安装my circle安装have,是从头给大家讲一下我们应该如何安装部署这个atla。这个艾LA啊,它虽然使用起来比较简单,但是啊它这个安装部署的过程相当复杂,所以说啊,今天我这期视频就是这这个主要的这个目的就是给大家讲一下啊,怎么从头来安装这个LA,好吧,那咱们这个文档也比较简单,一共分为四张啊,这个字数也不是很多啊,但是啊,咱们这个文档它里边又涉及到很多子文档,这每一个子文档是都可以打开的,并且查看里边这个相关的教程啊,那因此啊,我这期视频它适合什么呀,适合有一定的这个大数据基础的同学来学习,因为什么呀?因为在我安装这个哈杜啊,Have啊,包括这个组keepper卡发的时候,我会这个比较快啊,就是不会给你解释那么多,不会解释那么细,就比如说很多参数啊,很多东西啊,咱们就不会解释了,因为我们这个视频啊,重点是讲解这个ATS,它不是给你讲这个哈杜op的啊,那如果你在听我这个视频过程中,有一些东西你没搞明白,就比如说在我安装哈豆op的时候是吧,有一些参数你没有搞明白,那你可。
06:36
可以详情查看咱们这个硅谷啊推出的这个哈,杜甫的视频教程,好吧,啊,那我这个视频介绍啊,这个课程介绍就给大家直到这里啊。
我来说两句