00:00
好,接下来就是把我们那个账包打一下,打成一个账包,然后扔到集群,然后把我们的数据上传到HDFS,在我们集群上来运行一下咱们那个ETL程序。打包这然后把这个勾上是吧,跳过他,然后打包,当然双击也可以是吧。好,已经打完了,然后我们把这个包给拿出来。CTRLC,然后放到我们那个桌面,放到桌面上改个名字吧,就叫ETF是吧。ETL点这ET点这接下来就是把这个账包扔到我们集群,以及我们的数据扔到集群嘛,那扔到集群肯定先扔到虚拟机是吧。加PCD到VD model对四,然后把我那个包扔上来。
01:01
加我有了,然后数据吧,数据。还是桌面,然后鼓励语音,这两个都扔上来吧。User和video这两个我们都要对它进行分别,见表的好数据已经有了,我们可以看一下这个是。对住CD点对四看一下还好有首先这个ETL这已经有了吧,然后还有两个。两个文件夹是吧,一个user一个video啊都有了,接下来我们就是通过哈命令把这个上传到集群麦。哈,FS-put这个USB到我们的根目录,到我们根目录走。好,接下来我们上传一下什么呢?V6吧V。
02:00
我们到这个上面来看一眼啊。登录。然后有着有了吧,看一下。这个U的我们之前建立一个这种东西是吧,然后我们知道是2008,到时候我们指定的导入数据的时候,是不是指定到具体的这个0903这个文件夹就可以了呀?啊这你要稍微注意一下,因为U的我们之前创建了是吧?然后还有一个是V6 V6这个文件夹肯定没有的,到时候你指定到这个0222这个文件夹吧,你去导入数据,导入数据好,接下来我们要清洗的是不是就是这个数据啊。来,走一下,那还记得。哈多啊,这个命令啊,哈多站你们有用过雅安站吗?我们试一下雅安,这好吧。安,我们之前不是说过他杜过这个命令啊,他是不是集成了是么?雅安和HDFS这两个命令啊,这那你执行价包,你可以用它自己专有的命令,雅安这这也是可以的,那我们照包其实就在当前路径下是吧,ETL。
03:10
点赞。ETL点,然后要的是什么主类吧,主类那我们拿一下。Copy reference走一下,然后后面跟着是参数吧,就是它的一个输入跟输出路径,那输入路径我们从这个地方拿一下,是不是这个路径啊COK放在这,那输出路径我们直接叫。奥特的可以吧,奥的没有对吧。要保证一个没有的路径是吧,没有路径好走一下。分成了五片是吧,因为我们是不是有五个文件啊,因为默认的它采用的是text。刚才我们少设了一个内容。
04:01
所设什么内容,Reduce忘了设计为零了啊,他还会走一下是吧,我看到想起来了,应该正常,我们在这地方还加一个配置吧,是不是在这再加一个job.set number reduce task,把这个这为零嘛,啊,这样就不会走reduce丢了。他这个啊。也走完了是吧,他还走了一遍,就是就是拿这个数据,就一条进来一条出去了,一条进来一条出去了吧,就做了一个这个逻辑,但是正常的我们这个不需要了,也就是说他额外花费了一些资源,花费了一些时间吧,所以说有时候啊,你把这些东西全部写好。反而有时候你会漏掉一些东西吧。那这个地方你们自己写的时候,把这个加上是吧,把这个加上,那他就不会走这个reduce了啊走因为这个reduce走的毫无意义是吧,那数据我们打包测试也完了,那你看一下这个。
05:06
Out,还有一个P的是202兆的一个数据吧,就是把五个小文件是不是汇总了呀,然后结果的一个数据,这是我们集群的一个导包测试测试。
我来说两句