00:00
啊,整个的这个map我们是封装完了,但是呢,其实这个地铁啊,真正的清洗的方法呀,我们没有写吧,好,那我们到这来,那我们先要知道你要做什么事情,我们开始分析了要做哪做三件事是吧,二三第一个事是果实什么。过滤脏数据吧,过滤脏数据我们就叫脏数据吧,因为他不符合我们的业务业务需求了是吧,小于九条的那种好,第二个是干什么。将。类别。字段中。空格替换为什么?就这玩意是吧,这个看着就这个有个空格,这个没有空格是吧,就是把空格去掉,这样是单从。去掉类别字当中空格,这样好一点是吧?
01:03
去掉这个空格啊,这第二个需求,第三个是干什么。替换吗?关联视频的分割符吧,哎,它原始的数据当中是不是杠T啊,我们要把它替换成什么and对吧?因为为什么替换成and,是不是保持跟这个类别字段中一致啊,保持一致,那我们才能对它进行见表,是这样的,好,那我们来做一下,首先这个一行数据来了。那我们把它这个什么乱点split一下吧,啊切下按照杠T分割,按照钢地分割好,然后我们获取下他的一个,先拿到他的一个具体的数吧,然后调飞力量,这是一个数组是吧?好,这个就是切割。数据啊,切割数据,接下来我们要判断它这个长度了吧,就是做第一个过滤脏数据这个操作。
02:08
过滤脏数据,那它其实split.less小于九的话,我们是不不要啊,那是不是有一个判断啊E,然后把这个扔进去。好,那如果它小于九的话,我们直接return,直接return。这个报错是这个原因啊,是我我加了一个那个什么内容。我怎么找不到了,工程上工上,我把这个关了。关掉。这是我我自己加了一个阿里的那个编码规范。
03:00
阿里的编码规范怎么又出来了?Closer。FLY啊,阿里的编码规范应该是关掉了。你看好这个衣服不报错了,刚才衣服那地方报错是阿里的编码规范问题,就是说阿里编码规范当中啊,他如果说你只有就是你if判断后面只有一个一条一行数值语句,我们是不是可以省略大括号,但是在阿里的编码规范当中,它不让你省略啊,所以刚才那个if地方它报错是吧,If那个报错是阿里的一个编码规范问题,我们把它关了,不让那个。啊,那现在过滤掉脏数据之后,我们要做第二个。你们知道那个阿里电脑方法,你装一个插件就行了,没法说。
04:06
好,第二个是去掉类别字段中的一个空格,那我们先看一下它这个类别字段呀,是第几个呀。第四个是吧,第四个那在我们代码当中,其实就是LI33点了。替换嘛,哎,直接就play,把它的一个什么空格替换成什么内容都不要。还有一个返回值,那这个返回值我们直接用什么来接收啊。是不是用斯三来接收啊,你你是干什么,你只是替换掉,然后给他复值回去了,是这样的啊,第二个我们替就把它那个空格给干掉了,那第三个替换分隔符。
05:00
替换分割符,这个时候你要注意了,替换分割符这块一个逻辑相对来说应该能感觉到它比较复杂一点吧,它复杂在哪啊,他不是像那个类别这种一个独立的字段吧。因为如果说你单独如果说他。这个分割符当中啊,如果他之前不是这种杠T分割的,那就好做。那就好做吧,你直接replace哦,假如说它这里边是一个下划线分割的,你就类似于这种操作,把下划线变成and符就行了吧,但是现在啊,它是杠T,那杠T就等于什么呢?它其实这些字段。都分割了,都分割了,那你要干什么?把这些字段一个一个的给它拼接回来吧。就是本来是刚T的,你现在呢,把这个字段拿出来,你想想看,假如说现在是不是有一个LI9SPLI9这个数据是不是这一行。
06:00
来是不是这个数据啊,SPLI9是这个数据吧,十是这个数据,那你是不是弄一个什么SP buff或者SP build,把这个字段加进去,然后再加一个and符啊,哎,要这种操作来做吧,但是你要注意的是这里边到什么时候来加吧。前面的字段有多少个,九个吧,九个,也就是说大于九,就是你字段长度大于九的时候。他要干什么,才需要切,才需要去具体的去加上去,但是你要注意啊,注意注意什么问题啊。这个地方我们过滤的脏数据是小于九的数据吧,等于九的能不能进来。就是没有类别的。要进来对吧,要做拼接,那拼接的时候你正常的一个逻辑,我们开始是这样想的。
07:03
我们直接一个string。八码标的。这个其实倒还好,无所谓是吧。好是吧,通常都用的是,然后这个地方我们怎么添加呢。我本来是判断一下,如果说这个。点蓝色。小于九的时候,我们添加的是不是添加一个字段,加一个杠T啊,小于九的时候。不是,你要注意啊哦,这是蓝色,不是蓝色这个烂不对啊。是我们在外面定义一个什么,定一个变量,控制变量int I等于零可以吧?
08:06
这个我们我们为了方便直接开等于一吧,就等于它这个长度,如果说A小于九的时候。A小于九的时候,也就是说前面九个字段嘛,前面的九个字段我们是不是加的。A减一再加上一个什么杠T是不是啊,你肯定要做两个部分嘛。你现在数据前面的是不是按高地分割,后面的按。与符号分割呀,你你肯定要分成两部分嘛,那你要把这个分成小于九的部分和大于九的部分,哎,这两部分好。这个还是还是零是吧,零好一点。哎,小于九,那取不到九是吧,取不到九正好是前面是九个,那正好那这个里边是不是点a pen加一个spli。
09:03
I,哎,把这个I添加进去,然后点。这个里边添加什么,是不是刚替啊。添加进去,刚替添加进去啊,循环if循环。小于九的时候,负负是负循环,对对对对。直接一干什么,少了是吧,这地方。是不是这个地方把它拿进来。然后这个地方是A加加一个负循环啊,这个地方不要。In。所以说如果说它小于九的时候,就是字段数小于九的时候,我们是这样添加的,但是你要注意啊,如果说这个字段这条数据刚好只有九个字段呢,那你添加按这种方式添加,最后是不是多了一个杠T啊,对吧?啊多了一个杠T,那这个怎么去掉呢。
10:09
那你前面是不是还要做一个判断。如果说这个I已经等于Li的点了。这个是什么意思啊?就表示最后一个吧,如果他是最后一个的话,那你要执行的逻辑应该是什么?直接点a panda。Li的I吧,I把这个东西添加。这个地方要加一个吧,把这个东西是不是拿进去啊,这个逻辑明不明白。就是说你要保证的是,假如说你这个数据,这条数据可能只有九个字代码没有关联ID,没有关联ID的时候,你如果直接判断添加的话,那是不是给每一个只有九个数据的之后多加了一个钢体啊。
11:10
多加了一个杠替,其实这个不影响我们的一个业务处理,但是它不符合逻辑需求了。不符合逻辑是吧,你本来数据的结尾应该就是空的,你加一个杠G什么意思吗?啊,这肯定不对的,这肯定对的啊,这是负循环。小于九的时候,那如果说它有时候。大于九呢,这个负循环,应该这个负循环不对啊。应该是循环到哪了吧。然后还加加,然后这里面加一个什么。一会儿。I小于。九。在吗?
12:02
就是你循环你现在要干什么,就是你想通过这个STEM buff把所有的数据拼接进去。对吧,你是不是要把这个从利的零一直拼接到斯利,假如说19,它可能拼接到19吧。这个里面可能有那个对吧。可不可能有19啊,这要理解吧split split是什么?是一行数据切割出来的内容,它是不是可能有19啊,对吧?有19,但是它最小的是。九条数据吧,啊,最小的是九条数据。最小的是九条数据,那我们就要把九条数据跟大于九条数据的分开处理了,因为前面九条数据我们是用杠T分割的,后面的。零到20条数据,我们都用什么来分割?按照来分割吧,那这个地方是else。否则的话,我们就用and符来分割,其实and符分割的时候是不是也是同样的主体逻辑啊,要考虑它是不是最后一条的问题啊,是吧,那我们把这个拿过来,那这个地方杠T改成。
13:11
N的伏就够了吧,啊,它那个处理逻辑是一样的,就是你我们多加一个这个内容,一定要知道它是为了防止最后一条我们多一个N的吧,嗯,如果说你不加这个判断的话,它是不是最后一条后面执行完了时候,它还加一个M,那就多了一个符号啊,我们这个无论是这个钢筋也好,还是这个安好,都不想加这个符号,是这个意思啊。然后我们返回一下,返回的内容是什么点。To病嘛,好土病是这样。那我们这个逻辑写完了,我们来测一下吧。看测一下对不对是吧,看它这块到底有时候减一,有时候不减易经常这块确实这种减一不减一容易出错了,还是容易出错的点,那我们测一下,我们在测试里面写一个。
14:06
TEST6可以吧,PSD,好,PSVM,然后我们直接ETL点一条string,然后这个string我们拿一条数据吧。然后是这个地方,我们就拿第一条可以吧,第一条到这是吧。CTRLC拿过来,然后放到这,这是点so吧,打印一下吧,你不打印看不出来吧,OK,好走一下。如果看见数据有问题,我们再回来条吧,看到底是如果出问题,肯定是减一或者不减一的那个地方啊。视频ID我们对应的什么,具体的这个表格来看啊。
15:02
这个拿上去讲,然后看一下放在这。视频ID没问题吧,然后这个地方是上传者,然后653是整数天,然后是的一个类型啊类型,然后这个呢。长度,然后观看次数评分评论数。这个是这个不是评论数是吧,这个一是什么。是啊,流量这个评论数好,后面就是什么相关ID吧,哎,你看一下相关ID是什么,是不是中间都是用按分割的呀,哎,都用安符分割的,而且最后你看到最后也没有一个安符啊,没有安符,那接下来我们测一下这种数据。就是刚好是一条关联数据都没有的。就是最后这个为空的,哎,744是吧,我们看到找到744后面的不要了吧。把这个干掉,这样吧。
16:05
冒号,什么冒号?没有问题吧,说一下看我们在只有九个字段的时候,看他有没有加一个刚替吧,你看后面没有内容了吧,啊没有内容了说明咱们这个成功的,然后还有一个我们需要看一下这个东西它能不能给我们替换掉吧,来找一下这个刚才我们找的是第八条数据是吧。第八条数据刚好他第八条数据十个字干什么,CTRLC拿过来测一下啊,最好就是考虑到什么,所有的情况你都去测一下。保存一下走一下。八个,然后是哎,确实把我们的空格也干掉了吧,哎,空格也干掉了,然后这个它只有一个类别吧,就是它关联,诶关联的视频只有一一种啊,只有一个啊,所以它只有一个,然后后面也没有多宽的符号,那我们这个一条L啊啊就有已经写完了是吧?啊这里边主要是这两个逻辑,这两个逻辑其实你不加也无所谓,它不会影响你最后的一个表的建立。
17:13
啊,就是后面多一个字符,它不符合正常的一个业务需求吧,你数据完了就完了呗,你后面多一个什么杠T多一个N符。不算那么回事吧,所以说我们自己清洗数据的时候啊,你要考虑到这种点啊,考虑到这点,然后还有一个问题,就是我们是分两段累加的吧。是不是前九条数据的时候干什么。是按杠T分割的话,如果它大于的话,后面的数据都是关联ID的,关联ID的,那所以是用与符号来做的,用与符号来关联的啊,是这样的。
我来说两句