00:00
啊,然后我们看一下这个它的几个案例,那这块我们需要讲的东西呢,就是从关系型数据库到HDFS到汉到h base,到h base啊,但是你要注意它这里面。叫导入数据,这个导入不是说你前面是谁,假如说前面是MY。就是你后面会有跟着很多参数嘛,就是导入,然后后面跟着HDFS,有的学说,哎,这个从MYSL导入到HDFS,对吧?有可能我们后面是这样的,HDFS在前面,然后MYS在后面,那这个东西叫HDFS导入到MYS,能有同学是这样理解的,对吧?在SCO当中如果提到导入,那一定是从关系型数据库导入到大数据集群,也就是说只要数据从MYS。去网的数据的一个去向是HDFS,这个就叫导入,跟你参数位置没有关系。
01:01
啊,这个要记住的,然后反过来就叫导出,它这个导入导出在库当中啊,就是相对来说是一个比较绝对的一个概念了,就是导入就是从关系云数据库导到那个大数据集群,如果从大数据集群。把数据迁移到my soql当中,那这个就叫导出啊,所以说这里面导入导出的一个概念一定要清楚啊,一定要清楚,从非大数据集群对吧,向大数据集群去传输数据,这个就叫投入,然后它属于的关键字呢,是破的,跟你后面那个跟的参数没有关系,等会我们可以就看到完整的一个导入命令,导入命令OK,那接下来我们要去导入一些数据,那先要在这个MY搜当中准备一些数据啊。你再开一个窗口。MY杠,然后是root。好,进来了,这边有个警告是让你不要在这用铭文显示,这个密码是。
02:04
OK,然后我们看一下这这边直接有创建好的数据是吧,创建一个什么公司这个数据库装好,然后建一个表,然后导导导一点数据。这个表建了一个,他下建了一个表,然后有ID是一个什么。主见,然后自增不为空吧,不为空OK,有个name,一个性别啊,就是比较简单的几个,就是ID姓名性别啊,员工编号姓名性别,然后导入两条数据。把那个摘下。自增主键的话,那主线我们就可以不用复值了吧,自增的。然后还有一个黑色准备几条数据,我们可以来一下,先用一下这个是吧。外,然后select。
03:02
这里面没有提示是from,是这张表。两条数据啊,两条数据有了,我们的一个备用数据有了,OK,那接下来我们要导入,从这个MYSO当中,我们要将这个比画导到还是DFS4,导到是列F4,那另外注意我们有很多种导入方式,全全部导入,就整张表全部导进来,然后还有查询导入,就是说你用一个什么查询语句来导,查询语句来导,还可以导入指定列。然后同时还可以筛选。就是说哎,通过这种方式。啊,那我们一个一个看一下,首先是全部导入。看到C给他站到这来。好,这个东西大家应该见得比较多了,是吧。在利六当中,如果想你想把命令想换行的话,你必须要加个这么,要不然你调回车的话,它就执行这个命令了嘛,啊,所以说用那个是做换行用的,OK,然后看一下school,这个是启动命令啊,启动任务的命令,这没有什么说的,然后input导入吧,我们之前提了只要从那个什么。
04:11
关系型数据库到。大数据集群就叫导入用的关键字呢,就是import,那反过来大家猜一下。用的是什么关键字X对导出XXOK,那之前也提过,像这种是不是参数谜加参数值。对吧,大家希望这个东西,如果说你参数名加参数值的,是不是位置可以互换,位置都可以换呢?如果说这个地方没有参数名的话,不好意思,你这个位置是千万不能动的,就是官方文档里面找出来是什么样子的,你必须就是什么样子,必须什么样子的。然后这个同样的前面的东西呢,还是跟刚才这个一样。连接买说的吧,啊连接买的,然后这个地方。
05:04
Table,想一下这个地方是什么呢?你要导你的表啊,因为我们这个地方只到了哪了,只到了数据库,所以说这个方写单独的一个表就行了,然后你不要导到HDFS吗?这下面相关的内容都是。分两部分。这几个是买的一个参数吧。这些呢?是HDFS的一个参数,HDFS一个参数啊,那首先你要导出到哪个目录。这个目录当前我们没有啊,哎,我们看一下他没有,他会不会给我们创建,没有会会给我们创建,OK,然后这个地方参数猜一下。要有的话就给他,对有的话就删除,有的话就删除,因为我们走的不是任务吗?Map任务,你想想看那个outut,它能有能能让你那个什么输出的目录存在吗?不能吧,哎,不能的,但是这个参数在公司当中应用的时候,你就不要加了。
06:11
啊,最好不要加了,因为人家用了,假如说真有你给他删了,里边有没有重要的数据你都不知道对吧,但是他有这么个参数,其实你自己写MA6的时候,你是不是自己也可以做这种事情。你先去校验一下,因为你不是学了。HDFS一个API嘛,对吧,你去校验一下你传进来的目录存不存在,然后干什么,如果存在的话,你手上给他删一下,你就不用每次做测试的时候都去新建一个什么。新换一个空文件,或者说把以前的数据删掉了,你不用了,你就循环的一直用那一个文件就行了。这你可以做的,然后下面是指定什么卖个数,然后文件按什么分割的吧,分割符等一下。那你要不指定分隔符,它不就粘在一块,Have当中应该也看过吧,Have当中如果你不指定分隔符,就是查询出来,Have当中你是不是可以通过查询将数据写到那个文件里边啊。
07:09
如果你不指定分隔符的话,是不是它数据也是粘在一块啊,啊,这一方向全部粘在一块了,不对C。走一下。好,你看他把书把任务发给谁了呀嘛,跑的任务呢。六点兆啊,六点兆啊,其实跑的就是阿妈阿妈,然后还要说一下就是这个东西。1.4.6U盖是吧,哎,这些文档就是我们看到这些命令,大家需要掌握的,就是我们课上给大家讲的这些讲的这些,但是你要公司当中呢,有可能不仅限于这些吧,所以说你要去看这些文档,看这些文档那它的一个详细的一个命令。
08:01
对吧,然后还有来再往下看这个import怎么用,当然这块有它这个什么都是英文的注释吧,然后你看一下它的下面注释,然后我们给大家准备的这个第五章那块。把它变成了。这个东西第五章内容是大家当做手册用的啊,当做手册用的。正好那个任务在跑着嘛,就说一下这些事情啊,说一下这些事情当做参参数啊,这些里边有很多这些参数,其实这些参数这些表格都是从文档里边。这块啊,都是从这些地方拿出来的啊,怎么用都是从这些地方拿出来的啊,这里要注意的啊,它有很多这一个用法啊,这种表格它有很多,TABLE1TABLE2TABLE3,应该有几十张表格。它有很多的一个表,然后把它拿出来,形成了一个中文的一个文档,然后大家如果在公司当中用到的时候,可以去这个地方去找啊,去找OK。这边倒完了是吧,倒完了OK,那我们看一下。
09:02
长度10250070。然后是user company下面哎,Part这种什么0000对吧,那热的一个输出结果,那我们把这个下载下来看一下是不是真的我们那个所有的数据。肯定不是啊,我也没说肯定不是按杠T分割的吧,哎,我们指定它是按杠T分割的这样的,这是全表导入,那全表导入呢,你只需要指定这张表是谁就行了,而不需要指定额外的一些什么字段啊,不需要额外的字段,那整个的就是你的MYSO这边三个内容加上表示谁。然后关于HDFS这边相应的一个属性是什么样子的,你要导到哪个目录,导到哪个目录,然后。它的一个脉搏数,或者说按它的一个分割,看它的一个分割啊,分割符是什么样子的啊,给它确定好就行了。
10:05
那个妹子。Map歌手你自己分析那个,因为MAP6这边他没有对他的一个什么做什么一个切分,因为MA6这个东西它没有不像那个什么文件,它按一个文件一个文件读是吧,或者你用com那这块的一个个数,你就自己去根据,你知道MYS里边数据量吗。你自己估计一下这块那个东西。
我来说两句