00:00
那下面的话,我们就具体的来创建一下啊,啊,比如说嗯,Job table啊,If e啊,Exist。呃,一的哪张表呢?Ods开头start love对吧?啊,如果存在这张表的话,存在这张表那我就把它删除掉,否则的话我就creates。题加等啊,创建一张外部表,那这张表名字叫ods,当然了。对吧,那它这里面。字段字段的话要少啊。就一个知道来。是的,那你看呢,这里面有的时候它会加上这个叫标号。加上号是什么含义呢?他怕你什么呢?怕你这里面这个字段呢,定义的是这个关键字,比如说你这里面放的我这个字段名称,我就想起上它。
01:03
虽然说大家都知道哈,这一些关键字啊,这个不利于去这样去写。保存一下。2.circle口,你保存着circle口,它就会哎自动的就会变颜色了哈,那你看这里面,哎,我想把它放在这里面,然后呢,也作为字段,那你就得加上这个偏号,那有时候那个呃,定义这个变量,定义这个名称的时候啊,我们一般习惯呢,诶都给你加上偏号啊,这样就会好一些哈,行,比如说create啊,Eter table。是的,然后part partan by by吧。那这里面应该是这个啊,Partan by,那这个DTDT呢,就是对应的这个分区字段哈,票号DT。十句这样的一个情况啊,这样的情况,那正常你写的时候呢,我们往往是嗯,如果字段比较多的话。
02:03
啊,你可以这样啊,对吧,那这样呢,看起来你看看着会比较爽啊part,然后之后呢,后面呢,是这个start as啊存储那这个呢,这个比较长啊比较长,比如说这个start as input是谁out put是谁啊拿过来,那下面这块呢,是location指定你存储的这个位置哈。这块这块呢是存储采用拉住了读取数据,然后呢,读的时候呢,是test的啊可以查看的,这个呢是位置,这个位置呢,要按照你这个要求,那目前你看这个路径哈,Warehouse这里面是没有的。你看目前这个路径上没有吧,啊,等我们创建完之后,那这里面就会有对应的warhouse gma OD OD啊这么一个情况。行,那我们来创建一下啊,看看行不行。在这里面创建。呃,咪星E啊,这个拼错了吧,这个应该是这个哈。
03:04
是吧,啊,Its啊,听了过来。TS这也成功了哈,为什么成功了呢?因为这个它原来没有对吧?啊原来没有,嗯,正常情况下你该按这个。嗯,正常情况下你按最后就来这个。对吧,啊,先删除,删除之后再创建啊,这都是可以的哈,那当然了,你可以查看一下这个SOS。BS啊,这样呢,就找到了这个ods startlo啊就OK了哈,你说把这张表呢,我们已经创建完了,那创建完之后呢,我们希望呢,把数据加载过来,那怎么叫加载呢,你看一下啊,我刷新一下。你看这里面就有了一个warhouse,然后你点进去gmail ods odslo,那目前这里的数据是空的,什么也没有对吧?哎,什么也没有,也是这个路径上什么数据也没有拿过来。
04:03
这是目前它存储数据的地方,那我们希望干什么事呢?哎,希望这样。希望把datemail,然后start这里面的3月10号。哎,这个路径上的数据。是吧,二楼。我希望把它输出到这儿。那这怎么做呢?你说如何把一个数据剪切加载到这里面,之前我们在讲这个have的时候肯定做过。啊,怎么做的呢?还记得吗?刚才我讲的时候是load load date对吧?啊,然后in pass。In pass是这个集群路径,如果加上local pass的话,那就相当于是本地路径,对吧?啊,In pass,那我们接下来,嗯,Pass输入数据路径在这吧。对吧,这是原始数据,在这我们希望往这里传,Load data in pass,然后。
05:03
Into。Into大table哪个呢?缩小一下。Into到table,我们是希望加载到这张表,也是OS这里面去加。哎,就是这样一个过程哈,那我们来看一下这个语法,比如说load date in pass输入路径,然后into table,那前面呢,这个呢,你可以加这个秒也可以不加哈,在这个如果是就在当前这个数据库里面操作,那这个没问题。好,然后呢,后面别忘了有一个地方叫part,因为我们创建的时候是一个分区。分区表,那你要指定它的分区,因为我们只关心的是把3月10号的数据,哎,导入到这个分区里面啊,那也是这一块呢,我们再加上。嗯,Into table partition,然后DT等于2020杠零三杠,3月10号啊,3月10号的数据导进来。
06:11
比如说load啊,Date in pass,输入路径之后呢,Into table,目的地ods part,比如说哪个分区呢?DT的2020年3月10号,如果没有这个分区,直接创建。执行一下吧,试试效果。试试效果,试试效果之前呢,我还是让你看一下啊,目前这个original data这个路径上是有数据的。然后。这个warhouse g ods这里面是没数据的啊,看好了。能来执行。看看会发生什么事情,好,这边执行完了,执行完之后回来看一下这个路径。刷新你发现这里面有数据了,看来罗过来了吧,然后呢,你看原来这个路径上还有没有数据啊,3月10号的。
07:07
Start。没有3月10号了吧,啊,已经没有3月10号的数据了。那现在这里面这个数据能不能查呢?对吧,你不有表吗?那就是说推表。嗯,SE start,先from OS startlo啊,Lo limit two。少两条啊,要不这里面太多了。看到了吗?哎,你会发现哦,这里面你看已经有有数据过来了,数据过来。对吧,这数据里面就两个字段,哪两个字段呢,前面从这到这,这是就是那个line呢,你说就是string类型,那后面这个呢,是分区那个DT,比如说2020年3月10号,2020年3月10号。对吧,那你再回过头来,你看一下这张建表语句,比如说建表语句这里面其实就是这么一个字段,还有一个呢,是DT。
08:07
所以说这块呢,要要理解一下啊,刚上来的时候呢,有的时候大家理理解不了,说哎这块怎么这是一个杰森呢,这里面有很多字段呢,你怎么没解析呢,哎,就是ods,我们不做任何解析,只是保持数据原貌。啊,那这样就加载过来了哈,然后现在呢,我们是把这个,呃,2月10号star的日志已经加载成功,那加载成功了,那我们还可以做一件什么事呢,为这个拉多罗文件。创建索引呢串,因为你看现在这里面有没有索引。看一下在你的warehouse gilds。这里面这里面只有一个拉出的文件,那后续的话,如果想对它进行切片的话,那比较麻烦,那怎么办呢?哎,那看对它创建索引,那创建索引这个并不陌生对吧?啊并不陌生,咱之前说过还价,然后你的拉斯罗这个压缩包在什么位置指定上之后呢是。
09:07
对应的拉着罗这个全类名对吧?啊,全类名后边呢,是你要对哪一个路径上的文件。创建,所以那我这个路径呢,不就是warhouse gmail ods ods下面的ods diallo,然后它吗?对吧?啊就是它哈,行,那你把这路径拿过来对比一下哈。就是我们希望对这个路径。你看一模一样的吧,哎,就对这个路径上的数据进行创建索引啊,那之前我们其实已经创建过了哈,在这拿过来直接用一下。好,来到这儿啊,其实不在这也没问题啊。因为已经配了这个全集的黄金变量,哎。
10:06
OK,走创建。呃,来看一下,还是这个路径,看有没有说银诶。是吧,哎,这里面就来了这个对应的拉多罗索引文件啊,这样呢后续呢,就方便我们去切片处理哈。
我来说两句