00:01
接下来我们看这个点说把数据直接上传到分区目录上,然后让分区表和数据产生的。产生关联,这什么意思呢?就这样,刚才我们所说的操作,要不然是漏的数据吧,要不然是ADD partition添加分区这两种方式吧,好,现在他这个意思啊,就是说我这个分区表啊,已经存在了。这个表已经存在了,然后呢,就是这个东西我们是需要自己建立一个。文件夹,然后往这个文件夹里边铺的数据,然后我们再来查,是这个意思,哎,看能不能查到,我们之前表是不是可以查到,你往里面铺的时候是可以查到啊,那我们分区表往具体分区里面分数据的时候,哎,我们也试一下这个操作来。
01:01
DFS-make DR-P吧,然后我们把这个路径先拿一下这个路径CTRLC,然后下面貌似等于这个东西吧,我们拿一下好二五,我们的二六吧,我新建一个二六这个分区,走一下分换。成功了,我们来看一下目录,创业成功了吧,好,跟我们是一样的,接下来我们是往这个里边出的数据吧,DFS杠,Put。然后是OBT。是model下面有一个data,斯斯,然后是student的这个数据吧,Student DD put到。这个中心吧,走很好啊,来我们查看一下有没有上传成功,这有了吧,还有了有了之后我们要查一下这个数据吧,查一下select星from,然后是哪张表,这张表是吧,然后这个要叫不要吧,不要貌似等于这个吧直接不一样。
02:25
没有数据,没有数据跟我们表感觉不一样吧,我们创建表之后往里面铺的时候,他能查到数据啊,是能的吧,昨天试过了能的,但这个又不能,那大家想一想这个具体是什么原因呢。想一想。我们之前所讲的have里面能查到数据,首先你HDF上要有数据吗?这是前提,你数据都没有查,肯定是没有的,你不管怎么查,有没有表,还有第二个条件是什么?要有原数据信息吧,要有原数据信息,你首先受。
03:15
Tables能不能看到这个分区表?说明这个表的元数据信息肯定是有的吧。嗯。那什么东西没有分区的一个元数据信息没有吧,那你想想啊,你创建表的时候,你是指定的,当时我们这张表是这样发填的是吧,只有这一个字代码,只不过他的名字好像改为了叫帕。是这样一个表吧,这样一个表,那你想想看,你创建表的时候指定的只是什么分区字段。分区字段,但具体的他怎么知道,你最后分区叫什么2020,什么0626他能知道吗?你就创建表的时候,他知不知道这个属性啊,他根本不知道吧,所以他没有办法建立这个原数据信息。
04:14
没有建立这个原数据信息。所以它是查不到的,那接下来我们就要对它进行修复。添加分区可以,我们先说第一种方式修复,通过这个命令。MK repair。来给我们那个分区表做一个修复,STU,然后是帕这张表吧。走一下。显示已经添加了什么分区的一个原数据信息到这张表了吧,而且是。啊,最终是0626这个分区吧,哎,此时再来执行这个语句。
05:05
就能查到数据了,也就是说你分区啊,你这个分区是自己手动的去创建的。其实表那种情况,它跟这个分区是不一样的,不一样在哪啊。表是你创建出来的吧,那个表的文件夹是不是haveb给你生成的呀,那你想想看啊,那他为什么查不到这个什么time底下的东西呢?它也是啊,我我也是C进去的数据啊,因为他没有这个time,关于time这个文件夹的一个原数据信息吧,还是一样的啊,因为他没有原数据信息,那你HDM上有数据也没用,也没用。所以一定要有这个原数据信息,这是第一种方式,那我们再讲第二种方式。还是同样的,我们要添加一个分区DFS,就是手动创建啊这个文件夹啊,手动创建杠make电压杠D,然后还是同样的把这个路径拿过来吧。
06:08
这个CTRLC。然后它的一个我们加一个二七。二七可以吧,直行,然后还有同样的DFS杠负的,然后是这个路径,还是摘一下吧。Put的这个,然后是student.txt啊,到咱们这个路径下。读一下,当然此时肯定查不到的是吧?啊,我们已经试过了,那刚才讲的这种修复啊,还是第一种方式,第二种方式,其实开始同有同学提到了,就是给它添加一个分区吧,他手动的把分区加一下,哎,这样也是可以的,你想想看,你添加分区的时候,之前我们添加分区的时候是不是帮你创建了文件夹呀,哎,他不仅帮你创建了文件夹,他还给你创建了原数据。
07:08
也就是说他也把原数据添加进来了,那我们做一下on the table是s tu part提ition这张表吗?哪,然后是爱的帕。是这个东西吗?走好,添加成功了,添加成功了之后,我们来查一下。2727,你在这个执行这个之前,那肯定是查不到的,因为我们都测过了是吧?对哎,这个时候这种方式也是可以的,也是可以的。还有第三种方式,第三种方式就比较简单了,就是其实用漏的,我们之前用的就是第三种方式了,直接是加载进去的,加载数据进去的,那加载之前你无论这个文件夹有没有,它加载进去都会创建这个原数据信息吗?所以说加载数据这种方式呢,是最常用的,因为你不用提前建这个文件夹了啊,不用提前建文件夹了。
08:22
啊,这种用的比较多,但是如果真的你是已经就是你文件已经存在于HDFS了,你是在这个文件的基础上建立的表。那你要想到修复一下或者是干什么,把分区添加进来了,把分区添加进来就行了,那正常的,你要是先建的表,后添加的数据,那你就用。啊,就用漏啊,它自己就把原数据信息跟那个文件夹都给你一并创建好了啊,就很方便啊,第三种方式,其实我们之前就一直在用的,一直在用的。
我来说两句