00:00
好,然后我们看一下那个H,它跟于三分六的一个结合。他还可以跟那个汉对话结合,那后面学的八呢,他还可以跟八结。因为h base它本身是一个,我们之前强调的是一个什么。存储框架对吧,是一个存储框架啊,它是存数据用的,他之前提到了,你看你获取数据或者说。类似于扫描表也好,获取一条数据也好,你都是把那个对应一个R下所有的数据全部拿过来,好吧。没有说将多个人可以数据规划做一个什么count呀,Sum,或者说求最大值最小值啊,没有这种操作法对吧,所以说它不能够做分析啊,它不是一个分析框架,它只能做存储,那我就想存储在这的数据,我要是不对它这个数据做分析的话,其实这个数据对我一点用都没有是不是。那肯定要分析的,OK,那讲了什么?Map与have这块,就是与其他的一个分析框架做结合,做结合啊,你是存的,那我另外是分析方架,那我们来一结合就是,哎,存储跟计算都搞定了吧,还是讲的这个事情,OK,那我们先讲的这个ME6,因为我们现在学的这个大数据的一个分析框架呢,只有MAR6跟have吧,其他的还没学,SPA那块还没学,那Spark学了之后呢,Spark能从读出去,它也可以作为的一个分析框架。
01:29
啊,只要是能够从从那个H杯子里边读出去。做分析的框架都可以跟这个HP做结合,结合使用的是这样的一个概念,OK,然后呢,我们当前呢,就用这个。Ma来做我吗?H base的一个分析,H贝的一个分析,也就是说我们要写麦威的代码,从h base读数据。写到本地文件也好,写到HD也好,或者说甚至我看说可以把数据再写回到HP里边,这个也可以啊,就是分析完的数据再写回到HP也可以啊,那我们接下来看一看,首先呢,我们要。
02:07
做一个官方案例,找看一下我们的环境OK吧,然后再去写自己代码,要不然你自己代码写出来,封装成的价格之后呢。跑步成功,你也不知道是你代码错了还是环境OK吧?哎,跑一个官方案例来试写,那此时我们是用map来驱动h base对吧?就要拿着我们的map来从h base里面读数据,那你想想看,你哈动是不是要持有。H base的一些家包啊。能不能理解map reduce要持有h base的加包,能不能理解,因为你等会要写的是map任务嘛,那你map是不是要读数据啊,对吧,你读数据肯定要用到什么,刚才我们用到的这些h base的API吧,那h base的API是不是h base个加号里边,哎,所以说呢,我们第一件要干的事情呢,就是将卡多这个环境啊,哎把我们h base这个加号所吸入了,那怎么做呢?看一下这。
03:05
首先可以检查一下。如果说他要。做这个六从h base里面读数据呢,所依赖的价包有哪些?来在这直接执行一下就行了。C model。然后是。它要依赖于这些,你看这些都是什么H杯斯什么都是H杯斯立包下的吧,H杯立方下的OK,那你可以干什么事呢?你把这里面的价包一个一个的找到,给它放到他的问底下也可以吧,那这比较麻烦,那你现在发现这些包都在哪啊?立波下了啊,都在立波下,那我们可以干点什么事呢?我们不管3721,你这里边可能是部分包,因为我们看一下它这个立波包下是不是有很多,比刚才我们看到要多吧,那我们把全部给它好,可以的,我们就不做筛选了。
04:01
对吧,哎,不做筛减了,要不然你可以做筛减啊,就是说你自己去找一下呗,就比较麻烦了,全部倒过去,全部倒过去,那怎么倒呢,看一下。这是一个这种方式。其实你说把这个加法导过去,其实导到这个哈class下就行了。因为它在启动任务的时候,它就加载这个class pass下所有的加包法,你把它那个路径配到这个下面就OK了,那这是一个临时的配方,就是说你的命令行里边把这三个操作一下。操作一下,当然这个如果是我的话,我这个1.3.1就不要了,是吧,你就看你自己的一个路径,看你自己的路径OK,然后还有一个。就这种就是你每一次执行任务之前都要做一个操作,你看是干了什么,克拉下追加了一个什么东西。还是home病?是不是我们执行的一个结果啊,哎,把这个东西给它加进去了吧,OK,那这个呢,是临时生效的,你每次执行任务之前你都要做一下,那这样不好,我们给他干什么,配成一个永久的啊,配成一个永久的是这样的,嗯,诶。
05:09
好,然后我们去哪呢?去哈多宝里边。把这个东西给它配上。啊,因为它每次启动的时候啊,它都会加载配置文件嘛,啊加载配置文件那我们看一下。然后哈多加零,然后是哈多加对吧?ETC,哈多OK,我们找到哈多env。好的,我因为这里面有关于什么。Hard home啊哈,过一个class pass对吧,咱们配到哪呢?配到这个后循环后面啊,防止就是这个for循环,对我们数据进行一个修改,能懂我这个意思吧,啊就是配在这个佛循环外面,OK,然后配什么呢?来看一下这个东西。
06:01
CRC,拿过来。哈拉帕配了一个全局的一个变量嘛,然后是你看它这边对于哈的一个什么卡拉帕做了一些修改吧,你不要动你原来的。就是说你是用追加的方式,能懂这个意思吧,就不要他之前他做了过性化之后,他会自己有一些依赖吧,哎,你不要动它的一个依赖,你把你所要添加的依赖放在这个后面,你看添加的是op model,立保下所有的包。啊,我们把所有的包呢,都放在它的一个环境变量里边,环境变量里边啊,是这样的一个操作啊,这样你以后再做。操作的时候就不用在再不用再执行这一步了,对吧?啊,这个是一个临时生效了,OK,那做完这个操作之后要干什么。分发重启吧,哎,重启,那这一块既然要重启的话,连哈度我都要重启了,你是不是H杯也要重启一下呀,对吧,那我们来一下b stop。
07:14
这个也可以CTRLC干掉,然后我们CD点点到哈多里边,XXYC把这个ETC下哈度下的一个。哈多in sh给他分发一下吧。然后这边还是被已经停了,停了之后呢,我们把我的鸡群也停下,然后重新下。重新启一下之后,我们就可以把那个从K报起一下哈,起一下,起下之后把HP提起来,就可以测试一下我们的环境啊,能不能行了啊,可以测两个官方案例啊,测两个官方案例,这个就是官方挺供好的一个加包啊,我们直接用就类似于。哈度的时候,他是不是也有很多很多的一个官方案例啊,啊,那个都是为了测环境用的,其实他实际开发当中,你不可能用它那个加报告啊,都是为了测环境用的。
08:05
OK,还没有关完是吧,比较慢。关的内容比较多,看一眼所有的都关闭了吧。启下先起辈子,然后掀起多,然后再写这辈子吧。嗯,还有就是K起来之后啊,你也要看一眼,就有很多同学能看到那个进程,在他以为起来了,其实不一定吧,你得看到follow或者说什么leader,他才能够确保它起来啊。B ZK s status。啊,有follow,或者说能看到leader都可以。幺零二一般都是follow吧啊,因为它ID比较小比较小,但是我们正常启动的时候,是不是103会是leader啊,那有时候通信异常的时候会是104啊,有可能会是104,那此时。
09:03
就是通信异常的时候,假如说你在选举leader的时候,103那个。当时有什么有通信异常的情况下,它104在起的时候,它有可能选为104为leader,这是有可能的,但是一般情况下102不可能成为leader的吧,因为你任意两个节点互相选取的时候,二都是小吧,最小的一个吧,所以说三四成为立的都是正常的,都是正常的,没有什么可奇怪的。此时我们这个其他的一个节点都起来了,起来之后我们去访问一下。等他那个安全模式退出了,然后我们再骑我们那个。到了,走。好,然后我们可以看一下这个进程。然后好访问一下吧。你看现在微搜还没有上线呢,没有真正的,因为每一个微搜其中还有初始化的一个过程啊,这个时候你能看到所有的一个技能服务了之后,它的一个h base才真正的启动了,真正启动往回,那接下来我们要执行一个什么呢?官方案例,第一个官方案例呢,就看一下这个某张表里边啊,有多少行的一个数据,多少行的数据,这样,那我们先自己看一下CD。
10:18
这然后。在这里自己看是不是直接count一下对吧,STUDENT2行数据对吧,两行数据,那我们要通过什么呢?MAP6的一个任务来做,Map任务来做。同样的,它是一样的,那此时我们运行的是一个map,你得用哈价或者说延安价来提交吧,Op model,然后。B样降,然后提交的价包是哪个呢?是我们立下有一个h base-so-so啊,这就是有很多一个方方例,它不是用那个一个詹莫斯命名的啊,就是说它这里边也有很多一个案例,然后这个地方是当前目录立下有一个H-S。
11:14
啊,然后我们要执执行的,你要填一个什么。参数进去告诉他要执行哪个主力,是不是因为这个价包里它有很多的一个主力啊,后面传一个参数,那这个参数呢,就是我们roll counter。肉康拿下。这个表啊,两个参数,一个是你要指明你执行的种类,第二个呢是你要。操作的那张表吧。哦,那个地方点账没写是吗。因为它有点赞,还有test点赞。他会将我们的一个任务提交给resource manager。刚才那块是加载的所有的一个加包啊,因为我们把那个H的也配到下面吧,H的这个也有很多很多。
12:13
买好是做他的一个统计。好,然后看一下数据在哪呢,在这。是不是之前讲过一个计数器啊,还有印象吗?计数器就是实现的这种功能吧,哎,直接打印到这个最后的日志里边对吧?哎,是这样的,它两行数据没有问题吧,哎,这是官方案例第一个啊,就是说我们可以统计一下这个数据,如果说你自己能从这个HP读数据,比如说你做这个案例。能做吧,就判断一下rookie多少对吧?哎,看rookie有多少,做一个累加就行了,碰到一个新的rookie呢,做一个累加,然后最后呢,把结果输出,你要用计数器呢,也一样啊,计数器也讲过啊,通过这种方式打印,通过这种方式打印OK,那我们看一下第二个官方案例啊,第二个官方案例它是什么呢?
13:06
将本地的一个文件啊,当然这个本地指的是HDFS啊。将来列完上那个文件呢,传到我们H当中。就是传到表里边啊,用一个文件映射成一张表做这个事情。那我们把这个东西给他拿一下,我们把这个固件一下啊,这个文档里边,从word文档里面粘数据啊,你不要直接往一定的系统里面粘。你最好干一个什么过一样,因为这个地方有可能有问题,你看一下这个地方,可能你看明明放的是一个table,每次都是你你一个table放进去的,它这个地方就变成两台,就很奇怪啊,我的文档你粘出来看一下,粘住来看一下OK。这个里边杠是table对吧,然后空格是什么点啊,自己看一下,判断一下到底有什么东西该出来备用,然后呢,我们。Touch一个。
14:01
Fruit fruit水果是吧,点TV。TSV这种文件格式知道吗?讲讲是吧。它也是底层的一个存储,底层一个存储其实。然后这个回到桌面看一下,他他支持这种新建一个文件,然后改成TSV。TSV还是word文档,然后看一下这个CSV。CSV,走。这个东西CSV这个东西啊,是其实是MY底层的一个存储一个格式。MYSO,你看这个我直接用这个打开,打开之后我干什么呢?看一下我来一个AB逗号,它里边CSV里边是逗号分割的ABCABC保存项。
15:12
关掉,然后这个地方我直接打开吧,这是一个什么Excel是吧。MY底层的一个存储的一个格式,它是按逗号分割的,TSV呢是它是按table分割的,但是呢,对于Windows来说,它识别成了什么?文有文件了是吧?哎,它不支持这种一个格式,它能够识别到CSV啊,但是我们其实在linu当中,你说点CSV.tsv只是告诉你自己内部的这个文件按什么分割的吧,到底是CSV是逗号,然后TSV上是table播键啊,做的这个区分啊,其实linu系统上你说忽缀名没有意义对吧,他没有什么,他所有的东西对于他来说都是文件,对吧。
16:00
OK,那这个东西我们一下这个。点TSV,然后把我们的这个数据给他拿一下。拿到我们那个系统当中,诶。这这个情况你们应该也遇到过是吧,这个就很烦是吧,1001,然后table,然后是A,它会少一些东西是吧。啊,你不应该哦对,我刚才是我刚才没有插入A是个插入键,所以从从A这个地方才开始,对对OK,那保存一下这个C是吧,出那当年我们这个数据有了,我们把它传到哪啊。HDFHDF上。哈,都把FS杠,然后。TSV,然后到根目录就行了吧。
17:03
此时你会发现,诶,他多了一堆这个东西之前没有了。之前做这个操作是不是没有啊,直接就。下一行数据吧,是因为我们干什么,是不是把那个h base的一个力也放在下面了,它这个东西呢。发现了佛界的一个多重定义。就是说。哎,这杯子里边也有劳佛戒吧,哈度也有啊,是这个意思,那你要是觉得不爽呢,你去把那个劳佛戒给它剃掉,但是其实这个东西也不影响啊,只是说都是定义的,无所谓,然后我们看一下。嗯。这个地方是咋了啊,那个地方它显示还是有问题是吧,输入的点TSV上来了,我是点成一个副本,给了一个副输入的TSVOK,然后再来操作我们那个数据,注意这个此时啊,你要往HP表里边写啊,你必须把表先建立了。
18:01
把表情建立了,那我们可以先不建议看一下吧,不建议一下看一下,OK,这块是上传加这个。创建文件啊创建文件,然后我们执行的呢,还是刚才这个加工,只不过现在我们要执行的主类是这个东西,然后把这个拿一下。这首先同样的这个地方还是我们自己的吗?执行了一个命令嘛,哎走的雅压价,然后这个当前目录的加包,然后这个是去选主类吧,哎破的SV啊的TSVOK,然后是后面这些东西呢。是不是当前你就做的一个参数啊,你看它映射的是什么内容啊。1001变成周,然后第二列内颜色,然后这个这个地方呢,这个是表明。表明,然后最后是数据地址啊,他就跟着一系列的参数啊,只不过说人家那个账包里边写就是这样写的啊,这些参数你也可以做这样的事啊,你是不是在外面传参数,把它写成阿克斯在里面运用啊,也是可以的,OK,那我们这个地方改一下,我们是叫根目录下有一个符入的点,TSV对吧,TSV还有这个表,当时我们现在没有上电吧,我们走一下。
19:26
我错了,看一下他什么错?存不存在对吧?哎,其实这个类似于output对吧,它是不是氧化了一个的写啊,体现在我们HD上,它不是一个应该有一个文件夹,还有印象吗?对吧,每一张表对应一个文件夹吗?啊也就是说它这个地方呢,校验的是输出路径啊,就输出路径不存在跟你没设那个什么。Output一样啊,它的一个你output最终的一个输入地址不存在啊,这个地方就是一样的,这个输入不存在,那我们先去干什么。
20:04
创建一下这张表,创建一下在这就拿一下啊列图,注意你创建表的时候跟你这个地方要保持一致吧,就最终写的时候这个啊,不要不一样嘛,导入的数据。拿一下在这。类似一下输入的已经有了,OK,然后把我们那个刚才的这个任务执行一下吧。嗯。啊,这样任务就成功的提交上去了吧,他在提交任务之前是不是做相应的一个校验,当时看源码的时候能感觉到吧,啊真是把这些校验完了之后,他执行的是提交提交。OK,等他执行完了之后,我们扫描一下这个服务。走完了对吧。来看一下我们1001是不是对应的1013条数据啊,目前然后每一条数据里边都有color内哎。
21:06
就能导进来了啊,就能导进来了,那执行这个官方案例呢,其实就是测一下环境,说明我们这个整个的哈杜宝跟呃h base交互没有任何问题啊,啊导入数据读数据都没有问题啊,都没有问题,第一个是不是读数据啊,第二个是导入法啊,就是读跟写都没有问题,那这就OK了。
我来说两句