00:00
好,那现在先看一下这个框架的发行版本,来我看一下。把这个PPT咱们先点开啊。嗯,好,那我们先看这个第一个啊,那第一个呢,那就是说如何选择咱们的阿帕奇CDH和HTP版本啊,那首先先给大家介绍一下这三个版本啊,这三个版本实际上这样的,我们可以分两类,前面那个是咱们开源的原生的,后边那个两个呢,是咱们那种商业发行本啊在之前呢,这个阿法奇原生的,那我们需要要假如咱们想搭一套集群,咱需要怎么做呀?啊咱们现在之前,呃,大家学习这个所有的版本都是阿华奇的对吧?啊,那你搭那是怎么的,那老师直接把安装包给你,然后呢,你直接就搭起来了,对吧?啊而且跑起来呃,也没有什么兼容性对吧?啊但其实如果说你要是没有咱们提供的这一套安装包,那你需要怎么做,你需要自己去选择这个各种版本,对吧,我海度不管选什么版,呃,Have选什么版本,选什么卡普卡什么版本对不对,这些都得自己选。
01:03
啊,这些你要自己选的话呢,实际上是很麻烦的啊,你得去考虑每个框架跟每个盘框架之间的兼容性问题,为什么要考虑这个问题啊。因那你想一想,比如说我现在选一个have,选选一个海doop,如果你光装一个海渡,这个你不需要考虑什么问题,随便选对吧,但是你是不是还得选have,但是大家都知道我have是不是依赖于海度嘛,对不对,那所以说人家在开发have的时候,那他是不是在开发have时候肯定引入海度的依赖了,对不对,你得考虑他引入的依赖是什么版本,它引入依赖的版本跟你自己集群当中这个版本是不是兼容的,对吧?如果不兼容,那你这个have就起不来,那这个问题。对不对?所以说呃,其他的问题很多,你像我抓HSHS也依赖于其他的组件,你都得考虑啊,而且他们之间可能是交叉依赖,你就比如说海杜op跟hi,还有h base之间的关系,那首先h base依赖于hi doop have依赖于hi doop,那have呢,还依赖于h base,对不?因为咱们have物是不是可以把数据存在h base,对不对,也依赖于互相依赖啊,所以这个兼容性问题呢,其实是很麻烦的啊,如果说你自己要是去搞一套阿帕奇的话,那遇到兼锐性问题,你就得怎么办呢?
02:17
你得首先你得先尽可能选那种兼容的,如果说没有真正兼容的,那你觉得还怎么办?下源码,然后统一依赖版本,然后重新嗯编译源码。对,就是这样的一个过程,而且你改完一代的时候呢,可能它如果真的不兼容啊,如果说你还得怎么办呢,你还得自己改源码啊,因为它为什么不兼容啊。不兼容的问题,其实根本原因是什么呢?不兼容其实是这样一个原因啊,假如说我现在选了一个have的,比如说是三版本,对吧,那咱们就随便写一个三版本,三版本里边,假如说我依赖了海杜op的,比如说是二版本,假如说啊二版本,然后在海豆op的二版本里边啊,是不是可能会有一些那种过时的API啊,这个什么叫过时,过时说我现在这个版本呢,我就可能到了下一个版本我就去掉了,对不对啊,这是过时版本啊,那假如说我在的三里边引用了海多二的一些过时的API。
03:12
对不对,然后咱们现在集群当中我用的是三海doop,对不对啊用三海doop,那你现在把这个3HI跟三海doop放一起了,那你这个3HAVE当中是不是会调用一些二里边的过时API,但是过时的三里边已经没有了,对吧,这时候你启动have就会报一些什么方法,找不到类也找不到,因为它过时了,去掉了嘛,哎,这就是他那个,诶这个兼容性问题的根本原因。啊,那所以说你要真想解决这个问题,那你得怎么办?我就得把海害武的源码下载下来,然后把海度的依赖版本换成几,是不是得换成三,那你换成三之后,是不是那些过时的API就没有了,没有之后你就得去把它那个过时的替换一下,看看他现在用什么A言,你得改源码。啊,咱们就得这么去解决啊,这个相对麻烦,很麻烦啊,很麻烦。
04:00
而且你要改什么你也不知道啊,对吧,你就得一次一次的尝试去编译,然后编译报错了,哪报错改哪,哪报错改哪,哪报错改哪。啊,改完之后重新打包再部署是这样一个过程,很麻烦啊,很麻烦,这使用阿帕奇的特点,但是呢,如果说你要使用后边这个CDHHDP,那你就不用操这个心了啊,他已经帮你把所有框架之间的兼容性问题都解决完了啊,需要编译的人家都给你编辑好了啊,他有自己的一套安装包,直接下载一整套的就行,然后你装起来肯定是兼容的。啊,而且CD跟DP呢,它都有一个什么东西呢?都有一个管理器啊,或者叫做manager啊,干什么用的啊,啊就是它会有一个外部页面,然后你所有的集群的安装啊,什么升级,什么这个扩展,就是加一个节点或减一个节点等等这些所有的比较麻烦的工作全部都可以在页面上进行操作,比如说我现在集群三台节点对吧?那OK,我选择三台节点,那你需要在A节点上边部署什么服务,比如说name notde data notde,二,二一个data notde,三一个data notde,然后你直接点就行了。
05:09
啊,这个点点完之后,点击下一步下一步下一步,然后它自动就按照你的规划给你装上,然后假如说我后期想增加一个节点呢,直接加。啊,那想去呢,直接去啊,非常方便,而且你你要加节点,是不是那些服务需要重新部署,你要这个去节点是不是服务需要先注销什么的呀,对不对,这一套东西不用我们自己操心的,他全部自动化完成啊,因为咱们之前什么加节点,简节点是八这什么白名单黑名单是不是挺麻烦的呀,这个你都不用管啊,都是他自己给你做的啊,是这样,所以效率是很高的,很高很高的,呃,也就是说咱们可以做一个简单对比,如果说你从零去调研一套这个兼容的阿帕奇的框架,你可能需要半个月甚至一个月的时间啊,从零去做啊,就是不不能用咱们提供的包自己去调研一套啊,非常麻烦,那如果说用CD或HP呢。啊,一天绝对搞定。
06:01
啊,一天就能搞定啊,确实是这样的啊,它俩效率相比还是很很差,差距还是很大的啊,这是咱们这个呃,这几个版本的区别啊,那多少钱那个,那如果说我们在那个019年之前吧啊,那我们这个CDHDPCDHHDP呢,那都是能免费使用的啊,之前是有免费版的啊,但其实现在也有免费啊,也有免费版啊,但是它那个免费版是有一定局限性的,一会儿给大家解释啊啊这是这样,咱们现在来往下看吧先。如果说使用阿帕奇还这个运维麻烦,组件建性自己调研,那一般情况下大厂来会使用,技术性实力雄厚,有专业的运维人员,我自己这些兼容性问题我都能搞定,那都不是事儿,对吧,那我就用呗,那接下来看下边啊,CDHCDH呢,实际上是之前啊,之前咱们国内使用最多的版本。之前咱们使用最多的版本啊,但是现在呢,也有挺多公司仍在使用啊,仍在使用啊,呃,然后呢,他说这个,呃,CM不开源啊,CM指的是什么啊CMCM指的就是我前面给大家提到的那个,就是专门用来部署集群,管理集群的那个管理器啊,它叫做collal manager,简称CM。
07:17
啊,那个东西是不开源的啊,但是咱们也能用啊,然后呢,他说从今年开始收费,呃,然后这个今年其实指的已经是那个,呃,就是今年啊,就是今年20年啊对,二零年没错啊,然后往下走,呃,然后费用大致是什么样的呢?按节点收费啊,一个节点一年1万美金啊,还不是永久的。啊,所以这个很很贵的啊,人家老呀,每每斤算对吧?啊,这个确实很贵的,那很贵的,呃,你要买他这个呢,其实相当于是买的是什么,就是买服务了,买现成的服务对不对,它是它也是部署在云上面了,哎,直接你买,假如说买时台节点对吧?时台舰队里边你你需要的什么海度啊,啊各种东西都已经给你装好了,拿过来直接用啊,就是你需要花钱啊,这是CD啊,那下边HTTP呢,呃,HTP其实他俩现在其实已经是一个公司了啊,一个公司了,但HTP是开源的,也是它那个管理器是开源的,就是管理和部署集群的东西是开源的,都可以进行二次开发,但是它的相对来说技术不是特别成熟,不稳定,所以之前国内用的也比较少,也是之前啊,用最多就是C。
08:23
啊,那现在因为这件事要开始收费了,对吧?那所以说呢,我们可能后续啊,呃,这个主流还是啥呀,主流可能还是阿帕奇了啊,就是在咱们国内其实也有很多这种,呃,封装好的这个服务,比如说咱们阿里云上有这个大数据套件,那这个什么腾讯云有套件啊,那个什么那个华为云上面也有这个大数据的套件,其实他们都是相当于底层基于咱们这一套开源的,呃,海拓生态进行的一个封装啊,然后呢,你去使用的时候也是买他们的服务。啊,也是直接买服,然后拿过来直接用,但是也不便宜,也挺贵的啊,也挺贵的,所以说咱们主流以后呢,可能还得是呃,可能还得是阿帕奇啊,所以阿帕奇这套东西呢,咱们大家就正常用就行,目前我们给大家提供的这一套,呃,阿帕奇的框架就是兼容性都已经调整好了,该变异的都变异了啊,就是大家可以直接用,而且咱们选的版本都比较新啊,在未来一到两年咱们这一套都可以接着用啊,是没有问题的啊。
09:19
好,那现在说一下目前这个收费的具体情况是什么样的啊,现在咱们就只说CDH啊CDH现在呢,实际上呃,它是从呃六点三点呃三这个版本开始收费的,那也就是言为之意什么呀,6.3.2以下。还是可以免费使用的啊,还是可以免费使用的,就是现在6.3.3以上,咱们不花钱你是看不到用不了的啊,下边的还是能一直用的啊,但是现在就是说公司你要想用能不能用,也能用啊,也能用,但是就是可能会有这样的问题啊,什么问题咱们可能担心什么担心它可能后续我需要加,又咱们因为大数据新框架层出不穷,对吧,可能后续又要加新框架了,加新框架之后,我可能付费的版本我能够很快的支持,对不对,你能直接用,但是可能下边这种免费版,它可能就不会再添加新的功能了。
10:15
啊,就是这样的,咱们担心的是这个问题啊,那所以说现在呃,你要想用也能用啊,但是可能更多公司呢,可能会选择不去使用啊,是这样的,所以主流可能以后还是阿帕奇。啊是这样的,然后大家到时候如果面试的时候怎么跟人家去说咱们这一套框架呢,我们到底用的是啥呢?你这个都可以,哎,你说你用CDH行不行。可以啊,因为我这是呃好几年了,我早就开始用了,对吧?啊,目前我也在接着用啊,这个没事啊,那你说是阿玛奇行不行也行,也没问题啊,也没问题,那所以说这个到时候大家呃,就业的时候,这些东西到时候还会再给大家说的啊,这个大家到时候也不用担心,你说啥都行啊,说啥都行啊好然后基于现在咱们这个情况啊,就是CDH是不是也有用的呀,对吧?那所以在最后大家就业之前呢,会有一个项目,我们到时候上CDH啊,到时上CDH啊好,那咱大家把目前这几个版本了解好就行了啊。
11:10
好,那这个玩意之后呢,我们再往下看,再往下呢,就是这个具体版本型号的选择了,来咱把它打开。啊,那如果说咱们现在选的是阿帕奇版本,因为我们这个书藏里边咱是用的阿帕奇对吧?啊,那看一下这几个版本咱们得清楚。啊,咱们用到的所有的框架的版本,大家都得清楚才行,你必须得熟悉,比如说我问你辅助什么版本,你得能够快速答上来。为啥呀,他说。因为咱们到时候咱可以说句实话,就是大家到时候呃,那个简历上肯定都是比如说三年工作经验对吧?啊,那你假如说呃,这么长时间了,然后你到咱们这个版本,这个框架版本你都不知道这是不是有点说不过去啊啊所以这些版本呢,咱们需要熟记啊,说熟悉还做3.1.3啊,1.9.0啊,卡法2.4.1 3.1.2等等,这个咱们得得搞清楚啊好,这个咱们大家记一下就行了啊呃,完了之后呢,我们有一个注意事项,什么注意事项呢。
12:11
就是框架的选型,尽量不要选择最新的框架,呃,要选择什么呀,这个半年前的稳定版啊,要选稳定版,那选稳定版啊,那比如说咱们这个,呃,假如说这个目的是什么,其实还是考虑到这个成熟的这个问题,对吧?啊,那假如说我选最新的那所我们自己用对吧,出问题自己解决,那相当于就是相当于小白鼠呗,对吧?啊,那所以说咱们选那个,呃,半年之前的啊稳定版,那有什么坑,大家都已经踩过了,对吧?你有问题你方便解决,其实出于这样的一个考虑啊,好,这就是咱们这个选择的这个原则啊原则,然后还有一个小细节,就是选这个版本号啊。那假如说我现在这个目前有一个3.1.2的啊,三点一点哎零的啊,3.1.3的,再往上呢,就是3.2的,那咱们选谁呀。
13:02
我是不是选三点一点,呃,3.1.3的呀,对不对,3.1.3的,你得选那个小版本最大的那个对吧?啊,因为小版本升级都是对什么呀,对前一个小版本的一个一个bug的修复等等,对不对,是这样的,咱们选那个小版本号比较大的啊,把它记住就行了啊这是关于这个框架版本的选择啊行,那我现在把视频录一下。
我来说两句