00:00
嗯,好,那现在我们看看这个接下来咱要干什么,接下来呢,是这个8.2要创建这个买搜Q当中的数课,呃,这个数据库课表,那这个是干什么用的啊,前面咱们给大家分析过了,我们最终ad层的数据啊,咱们要干什么,要导到这个MYSQL里边,因为我后边要做可视化展示,对不对,诶你要给他导到这个位置,那所以说这边我们买SQ当中呢,需要给他,诶建一个库,那这个库呢,专门用来存储我这个统计结果,然后给我的报表系统去使用。给他去使用啊,那所以这边呢,咱们需要去呃建这个一个数据库,那我建数据库的时候呢,呃,大家这个自愿你可咱们那个数据库呢,就还用102这个数据库就行了啊,那你自愿你用这个呃G工具去建也行,你自己用这个客户端这个命令去建也行,那这边我都提供好了,那这边比如说我用这个GI去建吧,那我打开一个这个工具啊。打开这个。OK,那现在我去这个连接一下,我这个海子102双击啊,已经连上了是吧,连完之后呢,我现在我在这建一个数据库,新建这个数据库,那起个名字就叫g ma,然后下划线,Report,呃,做报表的嘛,Report报表的意思,然后下边呢,字符集我们选UTF8,下边这个排序规则呢,咱们选择UTF8JACI选那个就行,然后点击这个确定。
01:23
好,那这个库咱们就建完了,对不对?那建完库之后,接下来咱们要干什么,接下来啊,需要去建表,呃,大家要注意啊,在买四个当中,我们建表的时候,你说这个建表的时候,你应该怎么建,应该怎么建,应该对应着我们ADS层去建,也就说as层你有几个表,那这边买四个当中呢,也要对应的建几个表,他们是一对应的关系,比如说我买S,我这个HADS层一个表导到MYSQL一个表,一个表导一个表,是一一对应的啊,那咱们的MY,呃,HDFS上咱们有这个ADS,咱们有多少表呢?这个我大概算了一下,应该是有19个表吧,这个八个,十个,然后16个加三,一共19个表,所以我们应该正常是建19个表,就一个报表我对应一个,那这边咱们就不都建了啊,因为都建的话,呃,这个工作量比较大,咱们就只演示一个,咱们只演示一个,但是其他都是一样的操作,咱们只演一个啊,那咱们见谁呢?我们见这个。
02:18
咱们积累一下这个ADS层user topic,就是跟用户行为相关的,跟用户行为相关的那个,呃,一些用户信息啊,应该指的是哪个是这个会员主题信息,这里边呢,有什么活跃会员数啊,新增会员数,那后期呢,我们会,诶对这个需求呢,我们做一个可视化的展示,但是其他的呢,我们在生产而下,应该是都要建出来的,只不过这边咱们是为了减少这个工作量,咱们只建立一个啊好,那大家了解这个情况就行。那现在咱们把这个表给它建一下,那建表的时候呢,大家要注意呃,要注意两点,建表的时候要注意两点,注意哪两点呢?第一点。表的字段表示字段啊,你表示字段呢,要和咱们买so要和那ADS层这个表示字段要完全一致,就是你那边有几个字段,那这边也要有几个字段是完全一致的,这个大家先得注意到是完全一致的啊,那其次那这个在MY思Q当中,我们建表的时候呢,我们这个表是必须得有主见的,是必须得有主见的,这跟谁相关呢?跟我们S库相关,我们死库往这个咱们的MYSO导数据的时候呢,诶要求咱们买词Q这边这个表得有主见才行,有主见才行,要不然的话,导数据的时候呢,会出现重复问题,这个我们一会再讲,一会再讲啊也要记住大家建表的时候记住两个原则,一是表的字段要一致,那边几个这边就就得有几个,二是呢,表一定有主键,那表的主键咱们应该怎么去选择呢?这是大家要考虑的一个问题,我们其实这上边啊,不同的表它应该有不同的主件。
03:50
不同表应该有不同组件啊,比如说以咱们这个,呃,活跃设备为例,那它的主件应该是谁,他的主件应该就是统计日期,因为我一天我是不是给他插一条数据啊,一天一条数据,一天一条数据,这是没问题的,那其实咱们大多数啊,其实都是这个日期作为主见,大多数日期作为主见,但是有些可能不不是比如说谁,比如说留存。
04:10
留存用户,那大家看一看啊,咱们留存用户,我们往里边去导数据的时候呢,我们是不是有可能会一天往里边插入三条数据啊,咱们一天算三个留存率,一天三个数据,那这时候这个统计日期还能作为主键吗?它是不能作为主键的,那对于留存来说,谁应该是主件呢?是不是应该是它们两个作为主键啊,对不对,哪一天的几日留存对不对,我是不是能够唯一确定一个留存率啊,对对,那所以说主件应该是他们俩,这是一个复合主件,或者叫做联合主件。对不对,那哪个表的主键呢,你自己得搞清楚才行,得搞清楚啊,就是说你得去看到底哪个字段能唯一标识我这一行。是这样的,所以这块呢,大家要注意好,那这个主键这个事儿咱们就说完了啊,那接下来呢,咱们把这个文档上的建表语句咱们给它粘出来,我呃拿到这个界面语句在这,咱们把这个表呢给它建出来。
05:05
放在这,呃,当然你这个在公司里边建表的时候呢,你可能也不会去写这些建表语句啊,你就怎么办,你就在这建呗,用这个一般都用工具啊,这个建建建建表比较快,那你需要哪些字段,你的字段类型是什么,对不对,那是不是主键是不是就自己在这去建是最快的呀,那这边因为我是呃提前建好的,然后把这个circle呢,呃给大家那个导出来了,所以这边咱们用circleq去建一下,那circleq键怎么办?直接右键,然后这边呢新建一个查询。进行查询,那把这个建模语句咱们给它粘过来就行,粘过来之后呢,大家看我的主见是谁,我的主见是这个DT是DT日期啊,那现在运行好表就建完了,那现在咱们这个库下边呢,就有一张表了,只有这一张表了,好那表建完之后,一会我们就可以往这张表里边导我们最终的这个统计结果了,好视频录一下。
我来说两句