00:00
好,接下来我们开始这个第五章的一个学习啊,DMLDML是数据的一个控制语言,或者叫什么数据的一个操作语言嘛,操作语言就是跟具体的数据打交道,而DDL呢,它是一个定义语言啊,就是呃,创建库,库的增加干啥,以及表的增加干啥。啊,首先呢,我们要操作数据得有数据啊,啊,所以说刚开始的时候我们要知道怎么有哪些方式可以往我们have中导数据啊,导数据其实我们已经接触了很多方式了,对吧?啊,很多方式了啊,那我们具体的再搁一块把这些,因为之前所所讲的这个导数据的方法都是零零散散的在各个案例当中穿插着讲的,现在我们把它汇总一下,专门搁一块,稍微总结一下,你会发现这一块讲的内容呢,之前都见过啊,之前都见过好,首先第一种方式用漏的这种方式吧,那我们看一下它具体的详细的这个语法啊,之前我们只是从本地导的吧,然后这个我们给干掉,因为这个是我们自己的一个地址,对吧,然后他这样的,他说load,一个load date,这是关键字吧,关键字,然后local用中。
01:22
泡括起来了,说明了可有可无吧,哎,可有可无,那可有可无,我们之前用的时候一直都加了吧,啊加了它这个可有可无啊,不是说它两个意思表示一样的吧,它两个加载数据的一个地址是不一样的,Local就从Linux本地吗?如果你不写就是从HDFSHDFS,而且我们知道从本地导的时候。是把我们的文件CP上去吧,是不是啊,不是导一次就没了,但是我们等会可以看一下HDFS,它是CP呢还是复制呢?它是复制呢还是移动呢?对吧?哎,这个问题需要注意一下啊,之后后面这个就跟着关键字就是in pass,就是你具体导要导数据的路径吧,之后我们之前一直用的是into into是不是into into表示的是追加,能感觉到吧,我们导入多次的时候是不是可以看到。
02:22
很多个数据啊,重复的数据对吧,它还有另外一个关键词可以用over right啊,那就是复写嘛,一个追加,一个是覆盖,然后这后面就是具体你要找到哪张表,如果你是分区表的话,你一定要加上分区吧,啊多级分区你要指定多个啊,就是这个意思。那我们来测一下本地的,我们就不测了吧,我们也测一下,因为还有一个什么over的那个是吧,我们测一下并have。然后瘦table有16的三这张表是吧?十六三这张表里面有数据吗?再来个新from dt。
03:14
三是吧,没有数据对吧,他只有一个ID是吧,那这个表呢。这样吧,我们重新创建一个表吧,因为这个表我们都是有,要么是分区表,要么是其他的没有数据的表,是吧,都都做了很多的变化,就改变表,那那节的时候把这些表都结构啊都改变了,那我们创建一个完整的table,然后student,然后是他的一个字段ID,然后是name,然后具体的肉风慢了吧。Limit的,然后然后term的钢铁来钢铁,然后我们把数据,哎,正好可以支持一个空的空的表吧,然后我把数据加载进来,我们之前都是data local pass吧,Pass。
04:24
然后跟上他的一个路径OPT,然后是model吧,什么Du还model,然后是date,下面有一个student的这个文件,这个空的,你写into或者是overre都一样吧,那我们用那个overread吧。因为我们音兔已经用过了,是不是。Table是student的。这张表。
05:01
Missing,他说table前面少了一个。All right。音兔这个还是他音兔还是要要要的,但是后面有一种情况是不要这个音兔的,首先我们来看一下这种,来查一下select新from这个什么student这张表,Student这张表这是能查到的吧,如果说我们再加载一次,然后把这个O的干掉,现在是into这种方式吧,Into这种方式你再塞进去,然后查的时候应该是六条数据吧,六条数据就是into啊,它是追加,追加,如果说你此时把这个po加上O走,你再查的时候是复写吧,它只有三条,而且其实跟前面的不是说把这三。
06:16
要干掉了吧,而是说把这六条全部干掉了,重新加载的话啊,重新加载进去的啊,就是复写写好,这是我们还是从本地了,接下来我们演示一个从。HDFS上啊本地的,因为你这边不是我我已经加载了很多次了吧,说明这个文件是CPR还是拷贝上去的,如果说它是移动上去的的话,那肯定你第二次加载的时候,它会报这个具体文件找不到了啊,接下来我们就把这个文件上传到那个HDFSHDFS来看一下。哈,我们去到这个具体的目录啊,这个词,然后是how do f-put,然后把我们那个student就放到根目录可以吧,这个目录倒无所谓啊。
07:06
好,然后你来看一下。根目录上有一个student.txt了吧?OK,接下来我们要做的是。漏的data之前是不是啊,现在就不要了吧,直接pass吧,好是根目录下的什么student.txt移动到我们的。这个student的这张表吧,OK,走一下,哎,他加载成功了,加载成功了之后我们先来查一下,首先这肯定是两份数据吧,因为我们没有加opporight那个关键字,两份数据这没问题,主要的我们看一下。哎,它跟目录下的这个文件没了对吧,跟目录下的文件没了,这就是它从本地导入跟从HDF导入的一个区别,一个区别,如果说从HDFSR它就是移动,其实就相当于是木木,它被移动到了具体的这个student这张表里边啊,这张表里边,因为它这个两个文件的名字是一样的,它肯定不可能放两个完全一样,它就变成了一个COPY1,你再放一个应该就是。
08:28
二吧,哎等等,他要自己做区分的,所以他把你名字变了,当然如果你放在一个人student1.t,一个student2.tt,它是不会做改变的吧,不会做改变的啊,这是我们所讲的这个漏啊加载数据。啊,如果说加载到具体分区的话,就加上一个partition一级就一级二级计划机啊,这个我们也之前都做过了,对吧,这是第一种方式,通过这种漏加载。
我来说两句