00:00
那接下来我们来试一下读取HDFS的数据,写入到MYSQL就反过来呗,那其实都一样啊,都一样,那我们来。先看一下咱们的数据啊。那这个名字比较长嘛,我先把它改一下啊,我通过在这改一下哈,FS-MV啊改成student.tst。我不想带这个后缀啊,好,那么看一下改过来没有。改好了,那改好了之后呢,咱们来干啥呢?写配置文件的吧,对吧,其实你又对着他就是写配置文件啊,那写呢,我就不挨个敲了,也不想去看模板了啊。没必要我们直接看配置文件。因为这个没什么难的啊。来,我们来看一看啊,还是常规的reader跟writeer,我们看一下reader现在换成什么hdfs reader,那current可以写个星。
01:10
哎,我们之前说不能写星是为什么?还记得吗?我们说写入的时候不能写星。因为你是被。是被决定的,对吧,就像什么呢。你比如说一个。嗯,婚姻中介,比如说一个男性,他过来。想要匹配一个异性女性对吧?啊,当然肯定是异性了啊,那然后呢,他是不是提了各种要求说哦,身高我要一米六以上,呃。体重或怎么样,身材比例或者什么什么各种条件,那么这个中介平台或者媒人给他介绍的时候,是不是要基本符合他这些要求,他才会介绍给他呀,对吧?呃,你这个被介绍对象。
02:02
他找的这个对象肯定是要符合要求的。好,那么来这里可以写新,是因为它现在已经存在了嘛,就两个嘛,你或者挨个写也型啊,这里就不用写类型了,因为类型已存在了嘛,来defa FS,同样的道理,咱们改一下啊,我是8020。我是哈杜克18020,呃,编码UTF8。分隔符咱们是不是之前用的竖线对吧,改成竖线文件格式test没问题,路径没问题,好看my circle writer,呃。列名这里能写清吗?是不要写信啊好,这是第一个问题,好,第二个问题,为什么他不写类型。是不是这一张表已存在了,你往MYSQL写这张表如果已经存在的话,它字段名对应的类型是不是已经确定了,所以你这个时候是不需要写类型,那为什么前面要写呢?
03:08
为什么前面要写?你想啊,HDFS哪,你没写的时候,他哪确定有什么字段,有什么类型啊,是不是因为他们本身不存在啊,我们是相当于说要在这里声明和定义,所以你在这个时候是需要指定名字跟类型,那下面呢,由于你写入了是my circleql,那这张表存在的话,字段对应的类型是确定的啊,你就从这个角度考虑,其实主要就是往HDFS写的时候要写类型啊。其他的如果是数据库,大部分是不需要来adbc的地址啊,我主机名还得改一下,还是这个库代调查啊,好表呢,这是新的一张表对吧,但是你要提前建表,我不想建啊,我还是原来那张表啊,原来那张表接下来因为没密码啊,自己改。
04:04
写入模式基本就不再像之前什么openend跟其他的了,你看我写的什么insert,那如果你不知道你可以去哪看了,去官网看来,我们找一下官网往回退,找到my circle。写对吧。就是用对了,查看官方文档足以啊,那你往下找,往下找,找到一个参数叫。Write mode,你看它可可用选项有三种,一个是插入,一个是替换,一个是更新,还有默不写的话,默认就是insert。对吧,但凡你有不清楚的地方,只要查这里的文档就够了,那甚至这边还有什么呢,像我们之前说不知道类型支不支持啊,这边都列出来了,还有你是不知道性能怎么样。他们以目前的机器配置要去测的话,可能局限性太大了,因为毕竟咱们虚拟机对吧,呃,配置没那么高,那你看后面。
05:09
他给我们的一个什么测试报告,这是单表的测试报告啊,这是设置不同的圈拢并发数嘛,这是。批量提交横竖,这是对塔差的一个速度。是每秒钟多少条记录,每秒钟多少兆对吧。这边他都给到我们了。那还有分库分表的,还有性能小结。那甚至有一些问题对吧。有一些解决方案。还是要多查看一下这个官方的文档啊,这个就行了,这个没啥讲的,主要是使用对吧,那我们改完之后直接拿过来就行了,那我借你一个买手口吧。
06:08
Use data叉对吧?So tables select,新from student,看一下现在有三条,我们往这里追加三条,我就不再建新的表,那怎么做呢?是不是先建一个配置文件呢?这个叫HD FS two,买点Jason好了,把咱们改好的。配置文件拷过来。这都是常规操作啊,C位战士,好,接下来执行,贝塔差点PY。Job h DFS two my circle、惠特。呃,有个地方有格式错误。我们看看哪个地方写错了。
07:06
嗯。不是合法的,那可能是我粘的时候粘粘错了。哦,我加了这这这个地方粘错了,少粘了对吧,我说呢,这么奇怪呢。我我删掉重新来吧。D100D重新粘一下。然后他任务组零已经完成了啊。呃,三条数据进来了,呃,我们看看它的执行过程,其实大家可以看到有一个right data,你让它怎么执行的,Insert into,对吧?这个是用来替换的,呃。
08:04
这不就行了吗?它其实也是通过这种方式来的,那还有读文件的时候,你看读哪一个对吧,这个都是很清晰的啊。行了,我们来查一下MYSQL。你看对比之前新的三条数据是不是也进来了,对吧,就很简单啊。
我来说两句