00:00
呃,刚才呢,我们是了解了一下整个的一个数据结构。不说话了。我们刚才呢,了解了一下整个的一个数据结构,以及把它的需求做了一个简单的一个分析。再也不要说了,好吧。那么这个时候按道理来说,我们应该来导数据,对吧?导入数据之前我们应该去见表,基表语句当中呢,我们知道有两个O。两个瑞,我们之前说过,如果说你一个表里边有多个相同的这种复杂结构的时候,你要保证什么事?假如我有两个瑞,我必须保证这两个什么都一样啊。分割符必须要保持一致吧?是因为我们在建表的时候,你能按照字段来指定这个分割符的。类型吗?不能,是不是全局只有一个,你要指定一下什么按照什么什么分割对吧?啊按照什么什么,也就是说你这里面用了两个数组,不好意思,你这两个数组中间的分隔符要保持一致,那我们就看一下它提供的原始数据集是否是一样的,对吧?如果说不一样,那还要怎么办?
01:21
还要改了啊,而改呢,我们要用什么?MR去改啊,MR去改,那数据集呢在这块。看资料里边有一个data对吧,这呢有一个什么。鼓励video。啊,Video进来,这有两个文件夹,一个是video,一个是user啊,这对应的两张表格里面的数据啊。这其实是YouTube上的一个数据啊。UB的数据啊,OK,那我们拿过来这里面呢,我们随便打开一个这个小一点对吧,那点开。这个是一行数据。
02:01
这个是一行数据啊,是这个样子。啊,一行数据跟想象当中的那个数据好像不太一样是吧,他这个是一行数据啊,一行数据好,然后还有一个user表,我们也看一下。点到这溜走。刘德表呢,就一个给了一个数据就比较大一点,有的表三个字段。对吧,啊用户名。上传视频数和好友数对吧?啊,添加好友数这意思啊,就三个字段,那这个呢,其实我们不用关心,我们更关心的它。啊,跟关于的,他来我们把这个。需求把这个干什么,CTRL加A给它。拿一下我们对应一下。放在这。好,这个里面呢,首先它全部以什么。刚地风割的吧,啊,全部刚割的,来看一下第一个。
03:06
第二个上传者,第三个653天对吧,第四个。类别哎,它是不是有的,也有一个类别,我们当时分析了是不是有多个类别啊啊等会再聊,先看一个类别,然后继续谁类别,下面是长度对吧?啊多少秒,然后呢,观看数评分对吧,然后是。流量,然后是评论数,最后这一坨。相关视频ID,而且相关视频ID都是以杠体分割的,那不行吧,因为我们前面字段是不是钢体分割的,那你OA还能用钢体分割吗?不能,那你首先是不是要把这些钢铁要改掉?对不对,没问题吧,好杠低要改掉,好,那接下来我们继续往往后面看啊,其实有的字段它都不够,我们找一个给大家举个例子,因为这个里边好像单独的比较多。
04:06
Music还是啊。来看这。这个还是不是那个类别啊,对吧,人文和。我还有。旅行盒。地方。有那种吧,就地方一个分类也可以,就是或者说是应该对啊,就类似于这样的一个内容,OK,那你看一下这个不是多个吗。对吧,这个是多个吧,啊多个好,那这里边用and分割可以,那我是不是可以考虑把后面这个。也改成and分割统一吗?但是你发现这个and分割,这还有一个问题。中间有空格,如果你简单的按按着分割,将来批这个类型啊。
05:05
是不是有个空格。大家都是people,空格还好一点,我也能聚到一块,但是是不是有可能它会发生呢?People在后面,它变成空格people,那你就把people这一个类变成什么。两个类,这不行啊,所以在数据处理过程当中,我们要做几件事情。我们现在能看到的是不是要做两件事情?第一个要去掉它的一个。空格第二个是不是把后面的杠T改成。And改成与符号。同时还要注意有的。语句啊,来看一下啊,我记得应该有的是。找这个第八个。你发现这条数据怎么样?特别短对吧,当然他有可能是因为最后那个东西没有,但是是不是有可能有的数据连我们基本的这九个字段都不能满足呢。
06:01
对吧,是不是要过滤对吧,也就是说整个的在做这个数据清洗的过程当中,这个就是数据清洗,因为我们要清洗成我们have能够识别的一种格式。对吧,在清洗过程当中呢,我们核心的要做三件事,第一。过滤,过滤小于多少个字段呢?来我们看一下这边呢是十个。这边是十个,如果说我们按高地分割出来。多少个以下的我要标。是十个以下的还是九个以下的?九个以下的,因为最后一个相关ID,我们当时说了可以什么没有,也就是说前面必须要有什么九个,我们就只做简单的从数据量上做一个过滤,但是如果说你真的要对这个九个字段要做校验,是不是啊,每个字段看一下它数据的一个格式啊,例如它这个观看次数,观看次数这突然出现了一个四倍类型的,假如说什么ABC,那是不是这个数据也不要了,对吧,就类似于我们只做简单的什么。
07:05
数据这个量上的一个过滤啊,这第一点我们要做过滤,第二点对于category这个字段,它目前是按按分的没问题,但是呢,它两边有什么。空格,我们是不是要把这个空格给它去掉,对吧?去空格这是第二步操作,第三步就是。中间的什么杠T把它变成。与符号啊,变成与符号,也就是说我们要写M2来分析了啊,写六来做这个数据的一个整个啊整个数据的E条做这个事情。那这个呢,是我们把这个解。
我来说两句