00:00
好,我们进入最后一章,然后讲一下这个汉,我们要做的一个小实战,就是实打实的,因为之前做的一些骇客,第一数据量不太大吧,第二就是它还是一些常规的一些简单的一些思考,就是重要的在重点什么,咱们要学习某一些函数,某一些语法是怎么用的。啊,这块就是我们学完之后,我们实打实的要把前面学过的知识点搁一块串在一块,要用一下子都用一下,然后我们的这个呢,是一个视频网站啊,要统计它的一些各项指标,各项指标。然后我们要统计什么内容呢?这是我们的一个需求,像类似于什么视频观看书的一个淘花菜,那这个好做吧。视频观看数目啊,其实任何需求给到你们手上的时候,一定同时还伴随着另外一个内容。数据结构。你没有数据结构,你怎么做这个需求啊,对吧,所以说首先那我们先了解一下数据结构,这个数据结构对应的就是早上给大家发的这个数据。
01:08
不是有一个那个鼓励video文件夹吗?那里面有两份数据,一个是视频数据,一个是用户数据,但是那个视频数据不是不是不是视频啊。是是视频的一些。日志啊,视频的日志啊,不是真的是一个一个的视频啊,视频的一个日志啊,这个视频日志里面包含什么内容呢?我们看一下,第一个是视频的一个ID。而且是VEID啊,VE音ID在视频这个视频网站当中,他自己都有了,独有了一个VEID,还有一个视频的上传者是谁。然后视频的年龄,那就是在这个视频的平台上的一个整数天,就是这个视频上传到这个平台以后,它这个天数,它的个年龄,然后视频的一个类别,就是这个视频属于什么类别的。这个地方你要注意这个类比啊,它就跟我们之前所讲那个什么。
02:02
行转列那块内容一样吗。啊,列转行,列转行那块内容那个当时我们不应该讲了一个电影后面变成什么类别吗?它的类别也是一个数组型的。就是有多个类型嘛。就是动作片爱情片是吧,类似于这种的啊,他会因为一个电影或者一个电视剧啊,他都不可能处于一个单一的题材,是不是,所以它这块啊,是一个数组,这你要注意好视频的长度。视频的长度,然后这个视频的长度,其实。我也不太清楚他到底是这个是应该是秒多少秒。按秒来的,它单位是秒,然后这个观看次数吧,这个数据被观看的次数它有的,然后评分。满分是五分啊,类似于豆瓣啊这种的,它都有对于视频的一个评分,然后还有流量。啊,视频多少流量多少兆是吧,多少兆,然后是视频那个评论数。
03:04
视频的一个评论数。下面因为你看完视频不可以填一个什么观影感受吗等等这些内容是吧,它也有,然后还有一个相关视频的ID。不是他有可能会给你推荐嘛,就你看完一个视频之后,他说你可能喜欢是吧,就类似的,但是这个东西啊,你要注意。它也跟这个视频类别啊一样,它也是一个数组,而且不是固定的。因为你有可能新上传一个视频,他还没有相关视频吗?它是有零到多个的,那最多有20个。最多有20个,那你要注意借表的时候,你就知道了这两个东西是要什么数组的吧,数组格式的,而且我们之前所讲过,只要你表当中用到了数组,你就一定要保证这几个。这几个列干什么,他这个分割符是一致的吧,因为我们见面语句当中只能指定一次这个数度的分割符啊,是用什么来指定呢?
04:08
Connection他个办吧,啊,用这个语句来指定的,它只能指定一次,你要见表的时候,你要稍微注意一下啊,这是我们那个视频表,然后我们还有一个用户表,那你这边不有个视频上传者吗?哎,这边主要是视频上传者他的一个表啊,他是用户名,然后上传的一个视频的一个数。上传那个视频的搜索,那他这块为什么没有上传的视频啊。是不是上面就有啊,你两个表一交应是不是就能找到,假如说我要查张三这个人在这个平台上所有的上传视频,是不是你把两个表一交易,交易字段是这个阿lo的,你就能找到他所有这个视频啊,啊所以说这个表里边是没有必要把这个东西呢体现出来的,它就相当于这张表的一个外键是吧,外键是它的一个主件好吧,等等,那这个上传者的一个用户啊,它肯定也是唯一的,唯一的OK,还有还有第三个字段是朋友的一个数量。
05:12
啊,朋友的数量,注意这是朋友的数量啊,数量指的就就跟这个不一样了。数量就是单独的一个数字是吧,他不是说他的一个朋友,如果是朋友的话,又又找又要用数字的话,又要用数字了。是这块的一个内容。说这是表在这,那我们根据见表这个表字段,我们想出来它的一个建表语句。那就是这些东西视频为string是吧?String,然后整出添in,然后是什么视频类别了,好,那这里面有两个,而且要保持什么两个要它这个分割符要一样,那我们先看一看它给我们提供的数据是不是一样的吧,那如果不一样怎么办啊,是不是要做数据清洗啊,那我们看一下咱们给家提供的数据桌面,然后这个5V6啊,V6这张表啊,U的这张表没有什么。
06:15
A,瑞吧,啊,没有,那我们主要看一下V6这张表。我们就打开一个是吧。来这来这个东西你看啊,这个看着好像是三行是吧,其实这是一条数据,看到没,这是一嘛,然后这是第二条,我们对应的什么这个表的字段来看一下。首先这个地方是什么?视频ID是吧?然后有一个上传者是谁。然后是平台的整数天,这个,然后是它的一个类型。类型,我们之前说的是类型是一个数组吧,它可能是一个也可能是多个吧,它可以是单独的类型啊,这可以吧,但是你不能说它只能是单独的类型是吧?好,然后接下来是什么视频的长度啊,这个应该是秒数啊,不是分钟数,是秒数,然后这个地方呢,观看次数评分。
07:15
然后这个是流量,然后这个是评论数是吧,然后相关视频ID,相关视频ID。那你看啊来,那我们知道了这些字段,那最后从这开始。从评论数后面都是相关视频ID了,都是这个,那你看一下整个数据,我们之前说过在这个工具当中啊,中间的这个杠。是一个table吧,那你要有个问题了。那你这个用table,如果说你最后数组用table。那首先你的字段是不是如果说你数组就用table,那会产生什么,切不出来内容了吧,到了受损那块没有内容了,他全部把这些东西按照一个字段一个字段来处理了,那我们知道我们首先要处理的一个内容就有一个这个内容吧,就是最后一个字段啊。
08:12
我们全部要改成另外的,你用下划线或者按符,或者其他的一些内容,你要改变吗?好,也就是说从这块的内容,你要把它的一个杠T全部变成其他的一个字符,现在字符我们还没定,是and也好,是下划线也好,这都可以,对吧,你自己定好。接下来还有一个问题,看这条数据。你找一下,然后。有没有?来看这条第八条数据,我放大一点第八条数据。看这个地方标准要是什么,是不是他的一个类型啊,它所属的类别对吧,那。你看这个类别这一块。
09:00
它中间还有空格,那如果说类别。也是一个数组吧,你按按的符分割,这没有问题,那你想想看,按符分割出来是什么。本来是people类型,你变成了什么people空格,然后本来是blog类型,你变成了空格blog。但这个其实还好,但是有时候他把people放在后面呢。People放在后面就变成了空格吧。那本来是一个类型的,你现在变成了people,空格跟空格people变成两个类型吗?那你想想看,你ETL清洗数据的时候,你要做一个什么事?空把空格去掉吧,哎,And符我们就不变了,就是说我们这个欧数组啊,采用and符。可以吧,那我们就知道了,那后面的一个关联视频idea,我们也把那个杠T改成and伏吧,啊这是我们要做的两件事,那你看啊,你会发现有的数据这么短是吧,这么短是不是,也就是说你看表格字段在这。
10:02
他有几个,十个吧。它有十个,而且我们所说的相关视频可以没有。是吧,因为他有可能一个新人上传的一个视频,他没有什么,它就是一个非常新的一个类别,就没有什么视频跟它相关的,这是可以有的啊,也就是说最后相关视频可以是零段或多段,那也就是说这前面九个字段。要有吧,那我们过滤的时候,如果说你切割出来小于九它长度,那怎么办?这条数据扔掉吧,啊,也就是说我们现在分析出来的,你最终的ETL要做三件事情,第一直接过滤掉不合法数据,当然我们现在这个需求当中,不合法数据只有一种。就什么小于九的啊,它切割出来小于九的啊,我们过滤掉第二要不然什么。就是这个视频类别当中啊,它有空格,哎,我们要把这个空格去掉,哎,这是我们要做的第二件事情。
11:04
第三件事情,我们要干什么?把相关视频ID这个字段啊,把它中间的杠替变成什么。And,伏吧,保持跟什么类别这个二位啊,保持一致啊,这是我们要做的这三件事情啊,这三件事情啊,这整个的是我们关于这张。视频数据这个数,数据结构以及对应的真实的数据分析出来的吧,啊,分析出来的我们要做这几件几件事情啊,这是相当于我们前期的ETL的一个准备工作,ETL的准备工作。
我来说两句