00:00
好,二三我们来看一下,二三我来看一下,这两个东西呢,我们都做过了。还有印象吗?这个东西。好多命令导出到本地。用盖的命令吗?这个跟汉堡就没什么关系了,只不过说这个把数据存在哪了。假如说哎,它一个表,刚才我们第一批的表对吧,进来user have well house DVD是不是这个数据啊,我现在把这个数据导出,导到本地文件系统,那我用哈多命令直接get行不行。肯定可以啊,因为你是存在HDL的数据嘛,对吧,这个是大家之前学的哈多那块那个内容好,第二个其实我们也看过。对吧,第二个我们之前看过,第三个同样的这个东西是不是我们之前做过。还有印象吗?这个用的是Linux的那个追加符啊,当时我们不也试过吗?对吧?啊,其实用的是linu追加符,其实它本身呢,跟have的命令也没啥关系,只不过说这个里边呢,是形成了一个命令,命令的执行结果,我把它放在一个什么。
01:05
文件里边对吧,这样是不是也能做到把这个数据给它导出到本地文件系统啊,对吧?啊这两种方式呢,我们之前都讲过,然后接下来是这个。XP导出,但是这种呢,是跟这个啊,我们到时候要把它们俩结合在一块去用的。啊,他很少用啊,这两个都很少用,但是我们了解一下啊,了解一下这个干什么呢?这个是X的table。就是直接export就是什么意思啊。导出对吧,哎,导出好,导出一张表to这个地方。导出到哪?啊,到一个点路径,那我们来做一下这个内容,我现在要把这个第一批那张表啊给它导出去叫X。Xport table,然后是这个de BT对吧,To对吧,导出到哪xport to啊,然后一个SD路径,那我就叫一个X或OK了,这个X的这个路径呢,现在是没有了。
02:04
没有吧,OK,我们等一下。然后。啊,看着挺快的,对吧,啊,因为他就是在干什么。考个考个来看一下在这刷新。呃,多了一个X,错的点开你会发现这里边什么。一个Meta data,一个data。原数据和数据都导出了,那这个数据底下猜下应该是什么。就是那个HD上那个数据吧,啊数据他拷贝了一份啊,拷贝了一份是这个意思,好,有了这个前提之后,我们就可以用破的这个关键词了来。之前我们说过input它必须要export导出后,现在大家能够知道这个原因,我们之前没有随便找一个数据,因为你导的这个文件夹呀,你必须要写到还是错的,它里面带了什么。
03:00
原数据。带了元数据信息啊,那这个input的是这样的,来input的关键字还同样的input table导入到哪张表对吧,分区表就带上分区,不是分区表就不要那个。啊,不用这个,然后from,刚才是X做to对吧,这个是port from,因为导入从哪个地方导入嘛,然后把这个路径给它写一下,啊把这个路径,那我们找一下,我们做这个事,我先呢找到这个。田老师,我先导到这个CC表里。先导到西西表来试一下,就是这个表已经存在了,OK吧,来我们找一下关键字叫port,然后是table,西西这个表已存在的,我们试一下这个内容。然后呢?From一个路径对吧,路径呢,是不是我们刚才所写的。没问题吧,啊,走一下。一。
04:04
而且这个column STEM信息他说不匹配。那有同学同学想,哎,你们可能这样,第一批D这张表啊,是三个字吧。对吧,那我现在这个西西这张表呢。一个字段啊,是不是这种有问题呢?那我们这样我们建一个额外的一张表,也跟第一批的表字段完全相同,我们试一下对吧?啊,我们把这个都试一下来,字段相同,在我们找一下这个建表语句还记得在哪吗?在这啊,外部表达啊,Emb跟DBD这两张表呢,先把语句都在这,我把它呢拿一下,他说C,我不直接复制,我先放在这里了,因为我改个表明对吧。呃,现在DPD改成什么呢?DPD1吧。对吧,他拿过来。好走,然后刚才不是找到那个。Input table dept什么一,我们来试一下这个行不行,是不是,因为他最后给我们的信息是这个column sc,就是说这个列的语言数据信息是吧,不匹配是不是啊,这是我们想的,因为信息当时我们只有一个ID嘛,啊from。
05:20
导入这个。OK了。这个OK了,那我们查一下那个新from哪个。D b de,这个OK,好,接下来这个是不是看到OK了,我们再倒一下。他说,表存在并且包含了数据,他就不行了。啊,它就不行了啊,这个是不是刚才我们要空表,或者说我们可以选择这种方式来投入啊。二我有这张表吗?就没有啊,也就是说他必须要你这个表就类似于一个全新的这种表,才能导这个数据啊,才能导这个数据,而且这个数据啊,它比较死的地方就在这儿。
06:12
你不是说随便一个文件夹底下有一个什么那个数据我就能导进来,导进来他必须这个数据是怎么来的。XP导出的包含的这个元数据信息,所以说这个东西你说过你做一个了解。生长环境当中很少这样用,很少这样用导出啊导出,因为我们有很多其他的一个导出方式了,是不是。来看一下,嗯,在这个地方。这种啊,我们用的最多的就是哪个。这个如果说导到文件系统里边啊,用的相对来说还OK一点,然后其实更多的还不是在这是在哪呢。还记得第二个是什么吗?是不是in色的将查询结果导到一个表里边啊,导到一个表里边这样的,然后呢,表里面的数据我们导到本地文件,系统用这个in色的来插入到里边,而不会用X那个关键字啊,很少用那个关键字,好最后还有一个点。
07:12
Co它是一个什么东西呢?是一个框架。我们专门后面要讲的一个课程,一个工具,它这个工具的作用呢,就是帮我们导入。导出数据的,它更重要的不是说导到本地文件系统,它是打通了什么东西呢?是这样的。它可以将MY数据和FDFS或者说括号have。它打通的是这个路径,因为我们刚才所讲的把表里表数据导到本地分析系统。你可以直接说对接这些业务。你那个磁盘里边,然后你说IO流去读,然后对接在线业务,你会这样做。不会,我们把计算结果,假如说我们每天要计算的东西呢,我们要算一下前一天有多少用户访问了,有多少用户下订单了等等,或者说阿里的那个什么双11那个大屏显示,那底下不有很多指标嘛,那在那个获取的数据,当然那个是实时流的一个计算啊,假如说它是一个进展数据,每天要展示一个报表显示的那个东西,他会从文件里面拿数据吗?
08:20
对吧,他会从文件里面拿数据吗?不会,他会从哪拿数据啊。关系型数据库。啊,或者从那个搜索引擎,我不知道大家有人干过开发的,应该听过什么solo。然后听过吗?Search对吧?啊,它一定是放在这些地方的,它不会放在文件系统里面啊,去做存储的,也就是说更重要的我们将计算结果,因为你过来的数据,假如说有上亿条上亿条数据,最后我们分析一下,今天登录的用户可能就一个数据,诶2019年7月3号访问人数5000万,是不是就一条出去你进来了,假如说几十亿,最后出去就一条。
09:03
啊,这个东西呢,虽然刚刚开始在你的汉里边,但是最终我们要干什么?把它导到买课里边啊,这个后续呢,我们专门的课程去讲的。啊,它可以将MYSO数据导到HDFS,也可以直接导到have表里边,同时也可以反过来将HDFS或者have数据导到买斯克里边,啊,是做这个事的啊,这个呢是一个工具,它在生产环境当中用的是比较多的,所以呢,就不放在have里边做一个扩展东西讲,专门的开了一门课啊,开了一门课去讲的。这个稍微有点影响啊,后面我们再学。这个是整个的数据。
我来说两句