00:00
好,还有这个第三种s select是不是我们之前也做过了呀,就是你创建一张表的时候,哎,直接就把数据导进去了,是这种啊,这种大家在MY当中也是这么用的,那这块就具体的不再多说了啊,我们主要看下面。这种location location这什么意思呢?你本身你看啊,你创建表的时候,那个表是不是有一个位置啊,它是这样的,你如果说这种方式其实咱们做过,你创建表完以后,你往那个表里边直接C数据。能查到吧,可以查到吧,那这样我们先把这个先创建一个表11T create一个table,我直接like student可以吧,就不用写那么多一堆字段了,表明没给是吧,先听我看一下这个这个表一有三有二没有是吧,我们来一个二,来一个二做创建成功了,那此时的情况就是。
01:20
二在这了,我现在在这DFS-put OPT model,然后date上面的一个student.txt put到这个路径就粘一下好吧,呃,STUDENT2这张表是吧,CTRLC拿过来粘一下索NY啊分号,此时呢,你这个表里面就有数据了,然后你在这个地方查是可以查到的吧,之前做过演示是吧,DT这张表他是啊,DD体二是吧,我就说为什么用两份数据它是一份的,二这张表是可以查到的啊,这种方式正常的用的也比较多,因为你表建立好的,你每天的一个数据是增量的,它产生的一个数日志存存放的地方不一定是你这个表吧,是不是。
02:21
就一定是因为这个是在你have这个这个目录下呀,是不是啊,你不一定就是一它后台产生的日志的一个数据啊,就跟你这个目录是同样的,他要不同样,你每天把那个数据拷贝进来就可以了,对吧,拷贝进来就可以了,好这是一种情况啊,用的比较多,还有另外一种情况,什么情况呢。就是你公司里边啊,做开发就做大数据项目,之前肯定后台项目已经运行了很长时间了,对不对啊,他才会引入大数据项目的,好此时它的一个数据啊,都已经很多了,已经存在在那了,就是什么情况呢?来DFS-make d-D,然后user的规模,我有一个,假如说有一个这么个文件夹,你先把这个文件夹创好。
03:17
有的,那就不谷在这了,然后这个文件夹相等是什么东西呢?是你以前产生的日志的地方啊,就是你以前要分析的数据啊,全部在这,就是你大数据项目还没做之前,他已经就把数据全部放在这了啊,那我们上传一下DFS杠库我们的。把这个数据啊,给它放上去,是user and硅谷这个吧,也就是说在你大数据引入之前,这个数据已经存在于就是你要准备分析之前,这个数据已经存在了。这个你也有两个方式嘛,你建一个表,把这个数据拷过去可以吗?另外还有一种方式。
04:05
大家能不能想到现在我们讲的是location这个关键字,创建表的时候,哎,我直接它不是可以指定表的位置吗?我把表的位置指定到这儿可不可以啊?理论上应该是可以的是吧,我们来试一下,试一下,然后一个table student的是吧,是我们还是like student可以吧,那然后指明他的一个。Location多了是吧,好指明它的一个位置是不是这OK。走成功了,关键我们要看能不能执行查询条件嘛的新from d4走。
05:06
哎,它也是能查到数据的,就是说数据已经存在于你的哈多集群了,然后你在这个位置呢,去对它进行建表。也是可以的,而且公司当中你刚去,如果说刚开始做哈,很很有可能就是会遇到这种情况,因为数据已经存在很长时间了,然后你要对数据你建表,你就没必要动这个数据的位置了,整个的拷贝啊,或者说就移动啊,都很慢啊,你直接在这个位置建一个表就行了,所以你这个时候建一个外部的话,你最好建一个外部表,因为人家是这个数据,不光你have集群要用其他的什么,其他的集群很可能要用吧,因为它是最原始的一个数据,你在这个位置建一个外部表就可以了,建一个外部表然后就可以对它进行操作了,已经操作了,把位置指定到已有的数据上面,这是location这种方式,Location这种方式。
我来说两句