00:00
好,接下来我们做分析之前的一个准备工作,上午呢是把数据清洗了一下,然后放到我们idfs了,对吧?好,接下来我们是要想想看,我们是要对做那些指标的一个分析吧,啊,就是求头ten啊等等都是一系列指标的一个分析,那做这些分析之前我们肯定要有表啊,在表的基础上才能写那个开课语句,然后做分析,那这块我们总共会建四张表。四张表,那我要跟大家说一下,首先有两张表。这个是video video的什么or?还有一个是user?就是有一个原始表,然后我们想通过这种or RC的这种方式啊,我们用一下这种方式,不是说公司当中常用嘛,是吧?啊我们就把表啊,建成这种格式的,建成这种格式的,那你直接建成个这种格式,直接把数据导进去不行吗。一定要走MAP6的任务,它才会变成这种格式,是不是啊,所以说我们先建两张ORI表,然后把数据呢,直接漏到到原始表里边,然后通过什么c select的in色的这种方式导到这个orc表里边,啊,这个orc就是我们orc的一个存储方式,是这个意思,好,那建表语句。
01:15
就就不抄了吧。这个建表语句就是它里边有十个字段是吧,然后有两个什么。数组啊,这块要注意的有两个数组,你看这个是category类型吧,还有一个是related ID。就是它的一个相关视频的ID吧,相关视频的ID啊,然后后面呢,它这整个表啊,各个字段之间是按杠T合的,然后你的数组是按。与符号分割的吧,哎,我们上午清洗过了之后,将最后它这个字段里面啊,也已经改成了与符号了,已经改成与符号了,所以说我们这个表我们建立一下。这个是O表,所以它存储的是我们最好把这个。
02:02
拿到这边来了。因为我怕有时候他是跨这个什么。他在word里面跨页了是吧,有有可能有时候会出现,哎,他这地方也。出现断层了,所以说你遇到这种的时候,你还是摘出来看一眼比较比较保险一点好,还是调整思考。那这个没有问题的,你再家看一下,你一定要确保什么全是空格啊,全是空格虽然有锁定,但是都是以空格锁定的,不要杠替我们可以,要不信可以试一下,我把这个改成看啊,改成杠替看我。我真敲的是钢铁,我把删了你吗?删了放屁。那算了,他不让我就巴西算了,看到C这么奇怪的是吧?等一下。
03:02
好,这边就是这张表已经做完了,然后快速的把其他。还有三张表吧,啊,快速建立一下,这个是user or,就user表的一个原始表,User表比较简单,就三个字段是吧,上传者和上传的视频数,还有一个朋友的数量吧,这个就比较少一点了,哎,走一下,哎,见完了,然后还有还有两个吧,就是他的一个OC表,OC表跟刚才那个不一样,唯一一个不一样的点就在这儿。在这,然后他说分八个桶是吧,那我们就不分了,没有必要分什么桶是吧。CTRLC,因为我们的数据量还没有达到,要分组的是吧?啊,我们就不分桶了好。然后还有一个优。转过来,OK,这两个OC表也搞定了,接下来就是把数据导进来吧,数据导进来那漏的这套这个时候不要了吧。
04:00
之前我们一直习惯写是落到这个local pass吧,现在我们的数据是不是在HDM上的,那我们就不要这个local了,那直接是in pass吧,Pass它这个路径我们拿一下吧,在HD上是吧。好,我1025070OK。奥了奥的,就你直接写到好,这个是哪个数据啊。视频数据吧,还有一个U的数据是吧,分别导一下,我们先导这个视频数据。你这个success里面没有内容是吧,所以你直接写到这个路径没有问题,如果你怕有问题的话,你怎么做,直接写到这个文件也可以吧,写到这个文件也可以,那我们不用,因为这个success它没有任何内容,没有任何内容就是一个标志它成功的而已,好。那数据有了,然后into table是哪张表啊?
05:02
Video和I吧,它的一个原始表来走一下。这样数据就导进来了,那此时这个地方啪的就没了吧,因为它移到哪啊。你到那个表里边了吧,移到表里边了,接下来我们把这个还有一条数据是吧。下划线user应该是这样的一个表明是吧,然后它的一个路径我们要需要改一下是吧。来来,我们到这个地方拿一下。是U的,然后2008,然后0903是这个吧,到这个录进来。这个表明没错吧?V6,是吧,OK,走。好,此时你在这个地方啊,你也看不到这个U的点TXT了,它已经被我们移到表里边了,移到表里边了,那这样这两张表就成功了,这两张表成功以后,我们是希望把这个数据加载到我们那个orc表里面,对吧,Orc表那怎么来啊ins。
06:05
Over。然后table是我们的鼓励营orc表是吧,这个好,然后是来自于from。然后是这张表是吧,哎,它这个O表走一下。等这个MR走完了之后,我们把U的表也把它数据导进来,也就是我说这个步骤在走完之后啊,就是我们所有的一个什么准备工作全部都完成了,接下来就是具体的去做咱们那个需求了吧。导入数据,然后向ORC表里边插入数据。
07:05
啊,这个也走完了,然后还有第二个表色。Rt insert into。Over into都行是吧,Into。然后table是。鼓励。嗯,User orc是吧,User orc这个表啊,往这个表里边抄数据,然后select c。From,然后是把这个C改成I就行了吧。走。从这张表里边插入数据,然后放到我们orc表里面,我们想用一下这个orc这种方式。这块如果数据量很大的时候,如果说有人这个虚拟机是20个G的话,那走完这个可能。
08:04
而且你的副本数设为三个的话,可能你的那note进入安全模式了,因为磁盘空间不够了,磁盘空间不够那note也会进入安全模式的。啊,所以说当时要求不是婷婷老师给你们讲课的时候,就直接要求50个G了吧,啊,所以说你们基本上都是50个G了。50个G就剩十个G了,那你可以把就是咱们安装过的那些炸包啊,该删的删一下,该删的删一下,因为安装过了就没有什么用了是吧。那个东西还是挺大的,好到此时为止,我们看一下是table,就是我们这几张表啊,已经都。全部建立完成,而且数据已经导入了吧,数据导入了。
我来说两句