00:00
好,然后呢,我们来继续来看啊,刚才呢,我们从整体来把握一下,诶,这个汉语当中我们要学什么东西啊什么东西,而且也跟大家强调了一个汉语的一个重要性,其实大家所在我们这边培训当中所学的框架来说,最重要的给大家现在排个序,虽然有的还没学啊,应该最重要的三个都还没学。第一个Spark。重要度最高的排在第一啊,到时候学的时候我们会大量的带大家去看源码啊里面东西。因为面试问。其实源码这东西挺好的,但是呢,其实工作当中有很多时候用不到。但是面试的时候分,那逼着我们不得不讲,对吧,没办法没办法,那我们讲课的就两个。指导王洋,一个面试,一个什么工作开发啊,这两个都面试顾问的开发不用的,我们肯定就不讲啊,或者作为扩展资料提供给大家是可以的啊,但是课堂上肯定就不讲了啊,没有意义啊,没意SPA还是第一的啊,到时候学生要注意第二个就是我们现在学的这个哈。
01:02
Have这个东西啊比较重要,而且呢,那个so呢特别重要,特别重要,然后第三个就是大家要学的那个考考我不知道,就是听说咱咱们班有很多。有开发经验的是吧,那可能卡夫卡的他没用过或者其他的,这个是什么呢?是MQ消息队列啊,做过开发的应该知道,起码消息队列这个东西听过啊,这个东西呢,是非常重要的,非常重要的,而且呢,整个的我们看就是,呃,看官网上的视频浏览量最高的是这个考纲。主要是在于不光是大数据要用。Java也要用。啊,Java也要用,就是如果说Java的学员他回家考视频,他不是想自学大数据的话,他优先考的肯定是要考法啊,公司当中会用的啊,这三个方向呢,是重要的面试还是那个工作当中用的都是最多的。这三个框架,所以给你排个序,到时候你学的时候要注意,当然你学到后面讲这个框架的时候,也会再继续提这个事啊,提这个事OK,呃,这是have,然后呢,我们接下来聊一下这个have到底是干什么事的。
02:08
其实你学任何一个框架都一样,现在呢,咱们只学了两个框架,对吧。一个是哈,一个是。如K宝,一个K宝,那如何把这些框架分类呢?其实很简单,你要搞清楚大数据干了什么事。大数据解决什么事?海量数据的三件事情对吧?第一个传输。海量数据的一个传输问题。我们之前学了HDFS,是不是直接用哈命令传上去的。FS,那你觉得生长环境他会这样干吗?不可能。啊,不可能,OK,这传输我们会有专门的放假去做这事。第二个。还要解决什么问题?海量数据的存储?
03:02
你过来了。我存在哪呢,对吧,我们学的哈,里边SGFS是不是就是存储的。对吧,除了这个之外,还有很多的一个分布是存储系统,还有很多,但目前来说还是ids最主流啊最主流OK,那存储在这数据,你存在这电话对你有用吗。没用吧,对吧,那堆数据对你有用啊,就跟那一瓶毒药放在那儿。对你有影响吗?你又不喝它是不是,那就跟一样的,你这个存储你存在HDFS。你有没用吗?没用,所以更重要的还在于哪呢?处理也好,计算也好,对吧,做这个事,那我们的是不是做的这个事。那那一堆数据你是不是能统计出来什么次皮。那给你一堆日志,你是不是能统计出来,每个人访问当前这个页面访问多少次等等,这些信息是不是能统计到,对吧?啊,那这个分析才是我们最重要的,那你看啊,我们其实任何一个框架呢,甩在这三个里面就行了,如果说甩不进去的,那都是辅助的工具框架,我们后面会有一些一天半天的框架,那都是工具类,会用就行了。在面试过程当中呢,人家会问那个小放假一天半天的问题,他会问他一般的问什么呢?你有没有用过这个工具。
04:22
你用了这个工具干什么用了,就仅限于在这个层面能懂我意思啊,因为它是工具,它不像我们什么哈度啊,那些原理型的东西,你要搞清楚它的一个提交流程啊,什么读写流程啊,没有啊没有,所以工具类的东西呢,一般我们上课时间就是半天这一天。啊,这样我们后面会有这种工具啊,工具来框架,那大部分我们上课时间长了,超过两天呢,肯定能甩在这里的。啊,要不然就是传输存储和计算啊,那我们所学的哈度。它就是存储加计算对吧,ZK呢。ZK呢,它其实不是存储我们大数据内容,但是他其实也是一个存储框架,对吧,而且是帮助我们什么管理集群。
05:12
协调其他的进程之间协同工作的,对吧?啊后面呢,我们还有很多都会依赖于K啊,那它其实也是属于一个协调工具啊,相当于我们的协调工具,那接下来我们要学的这个have。他什么东西呢。它是一个计算引擎,那我们刚才都说了,都写开了是不是。都写克,那你写的搜我们说了,更重要的在于查询嘛,而且呢,你不是简单的C新旧的方式的查询,而是要做sum com等等这些聚合查询,那sum抗是不是做运算。对吧,啊是做预算,还有做top n对吧?啊求前十前三等等这些操作啊都可以啊,排序正序倒序啊等等,它呢是一个计算等等。
06:00
啊,接段框架OK,那整体刚才我们是从整体的几个框架来做一个对比啊,就是后面学每个框架的时候,大家都去这样去操作一下啊,然后接下来。开的概念,第一个由Facebook开源的啊,当然他现在已经交给阿帕奇了,所以它那个官方地址。Have,点阿尔法奇点G对吧?啊,所有阿尔法奇框架就是这样啊,我们会大量的学这个阿尔法奇的框架,那他说了,它用于解决海量结构化日志的一个数据统计。这里面呢,提到三个点,第一个是海量数据,这没问题,因为它本身是属于这种大数据框架,对吧,第二个很重要的点就在于哪结构化数据。结构化数据,所以在汉当中我们能干什么?建表建库。你不是结构化数据,我有的数据第一行两个字段,第二行五个字段,你怎么鉴别?能建吗?建不了吧,啊那个列的不一样啊,建不了,所以呢,它处理的这种结构化数据,然后呢,是做这种数据统计的,也就是数据分析啊,它是一个分析引擎,分析引擎OK,那接下来我来看他说还是基于哈多的一个数据仓库工具。
07:15
数据仓库工具,首先这里面有两个点,第一个是基于哈动。基于哈,也就是说你想能用have的话,我哈杜所有的进程要看,包括DFS和延安。和雅这两个东西要看它是基于的,它依赖于HDFS和雅两套啊,都依赖于好,接下来他说它是一个数据仓库工具。数据仓库工具。那这个怎么来理解这个事情,数据仓库。它是一个仓库。书,而且是存数据的仓库,但是它仅仅是一个工具,这地方呢,体现在两个方面啊,第一方面它可以管理数据,对吧,因为数据仓库嘛,你仓库里面存放的东西。
08:04
是不是有制度的去管理的,对吧,还有专门的仓储人员去管理的,而且呢,它仅仅是一个工具,说明它本身不存数据,而且我们刚才也说了,它是基于好的。啊,他就是提供了一种管理的方式,就相当于是这个意思。啊,后面我们用的时候就能知道,接下来他说可以将结构化的数据呢,映射成一张表,数据存在里面,这DFS没问题,你这个数据呢,如果说你每一行都是四个列,对吧,我就可以把它映射为一张表。因为我提供了这个工具啊,然后呢,提供类circle查询功能,这注意叫类搜,它跟搜很像,但是呢也有区别。也有区别,绝大部分的语法都一样的。啊,绝大部分一样的,那本质上我们来看一下来在这儿。我们写的是circle,但这个circle呢,不是简单的circle,叫类circle,叫have query language。
09:02
叫hi口,Have query query language查询语言,Have的查询语言就是说它会做一些改变,就类似于奥跟MY搜它都是so语法一样吗?有差别吧,很多是一样的,对吧?啊,那have也一样,它有它独特的语法,但大部分什么select新啊,Select some吗?这些东西都一样。啊,什么from Li这些都有啊,基本的语法都一样,但是由于它是处理用大量数据的,海量数据的,所以呢,它会有一些特殊的语法啊,特殊的语法是这意思,然后呢,他将我们写的S呢转换成了map任务。啊,他会做这个事儿,就是那大家想一下这个有什么好处。方便。就是他提供了一个框架来把我们写的搜索翻译成MAP6,当然他不翻译成MAP6,既然他能够用框架来翻译成mmr来把这个任务完成了,那你说我不写,不通过这个,还有这个框架来帮我翻译,我们自己写,那能不能实现是一定可以啊,对吧?框架能干的事你肯定可以啊,你肯定可以,那这个有什么好处呢?
10:20
方便,简单方便,更重要的是减少了开发人员的一个学习成本,他不需要大量的去学习当中核心的一些逻辑,只需要基本的懂一些概念。对吧,但因为就目前来说,公司当中。做大数据的很多都是后台转过去的。后台的那帮人最熟的。就是烧烤。最熟的,因为他要处理业务对吧,他要处理业务,那业务呢,就是用算法来解决的。啊,又搜到大量的搜狗,那所以他这个学习成本就会很低啊,那个框架帮你做的这个事啊,现在有很多框架都是这样的啊,提供搜狗查询,然后底层有很多API,你不需要懂,然后他会教你写的搜索呢,翻译成API去调用啊,也就是说你不用学那个API了。
11:08
啊,你直接写色本来查询就行,那这个点呢,就是我们刚才所说的啊,它方便了我们的一个任务的一个运行啊,开发成本也降低了,同时降低了什么。开发人员的一个学习成本啊,学习成本你可以稍微的学一些哈,当然你会要懂,你会你必须要去学一下那个is跟六你说什么都不懂直接写哈,那不行啊,那你不用懂得特别深,对吧?啊,减少它整个的一个学习周期就OK了啊,那我们看一下它是怎么来做的,这个呢,是从粗的方面。来看吧。第一个。数据仓库呢,就是我们have通过S进行统计分析啊,统计分析它会将我们S当中常用字段啊,所有的关键字,也就是说我们所说的那个什么函数啊等等那些东西都会定义成很多的mapdu的一个模板。啊,定义很多这个模板,然后呢。
12:03
封装在汉服当中。之后。这个是我们搭建汉的一个过程,当然我们看着这个过程好像很很多部对吧,其实对于我们来说是干什么。解压啊解压就好,因为他已经处理完了这个事啊,处理完了OK,然后就是我们客户端我们写的一个口。写了一个开口,那它会通过自己内部的引擎。像MY搜索也有C引擎,它引擎就直接去拉取数据了,对吧,做分析,那在汉口当中,它这个引擎干什么事呢?它要将我们的海口转化成。查找模板啊,它定义了很多这个模板啊,查找模板之后呢,翻译成我们那个MR。好翻译成什么执行任务,执行MR任务之后,那就结果呗,结果就返回给我们客户端就吧。啊,再返回我们工单,其实就是将我们刚才提到的一个本质问题,将。口转换成max。啊转化成六,OK,那最后这三个点呢,关注下第一个还我存储数据依赖于D计算,那而且我这写的什么东西叫默认实现,既然我提到的默认实现说明可以改。
13:13
啊,可以改,例如它就可以改成Spark啊,不用MR来做它这个计算机,而我采用Spark,因为Spark快啊,当学Spark的时候,你们会寻到这个点啊,会有,因为现在还没学,那我们只能现在用什么MA6啊,只能现在用mab热麦热很核心的一个特点就是慢。好同学们对吧,但是呢,他吞吐量高啊,如果做离线处理的话,还是用MR比较靠谱一点,吞吐量的啊吞吐量的,但是他慢。好,然后呢,是我们。执行程序运行在两岸上面,也就资源分配运行在两岸上面,那这样看来我经常打个比方,就是have的一个东西,它其实是相当于他做的一个客户端。你看存储数据还F。
14:01
计算用的map,然后资源调度用的是雅安。全部用的人家东西,只不过说汉相当于给你的一个客户端,然后让你很方便的去调用HDF6对不对对吧?啊所以呢,这个是我们学到的第一个大数据框架当中,它不是一个分布式框架。因为他是一个客户端,你有听过Chrome这个浏览器分布式吗?我们俩是分布式的协同工作。有这种吗?没有了,哎,它简单的是一个客户端,当然你可以装102 103 104,他们是独立工作的。都是一个客户端都可以提交请求,能懂这意思。啊,它是相当于客户端,因为他自己不负责运算,还有一个点,但凡我们如果讲到后面你要学到,告诉你这是一个计算框架。它一定是什么。分布式的。能力能不能理解这个事,因为你是做海量数据处理的,现在单台机器你告诉我你做海量数据处理。
15:01
怎么可能对吧,所以但凡你后面学到的那种分析引擎,这个是比较特殊,还有呢,它相当于一个哈度的一个客户端,其他的但凡自己做运算的这种。它一定是分布式的,一定是分布式的,不可能是单机的。啊,单机它就干不了那活能懂我的意思啊,这是我所聊的一个汉,它本质,我们再梳理一下它处理海量结构化数据的一个什么。分析引擎,但我们虽然叫它分析引擎,它实际上我们可以把它看作是哈多的一个什么客户端,对吧?哎,它用的是HD存出去用的M计算数据,也用的雅安来调度资源对吧?哎,这三个点你要把握一下就行。
我来说两句