00:00
好,那接下来我们再为数据仓库的搭建做最后一项准备工作啊,就是数据准备啊,简单回顾一下我们数据仓库的数据来源啊,咱这儿一共有两个,一个是用户型日志,一个是呃,业务数据啊没错吧,那用户型日志呢,我们的采集通道是flu加卡夫卡加flu,那呃,业务数据的采集通道呢?哎,咱用的是scoop啊,这个我们先简单回顾一下啊好,那现在我们继续往下进行,那一般情况下,那企业在搭建数据仓库的时候呢,业务系统当中会存在一些历史数据啊,那所以说我们此处为了模拟这个真实的场景,也要准备一些历史数据啊,那咱们现在假定啊,我们这个数仓上线的日期是2020年6月14号啊,那接下来看一下我们需要准备的哪些用户行为日志,还有哪些业务数据,那我们往下看啊好,那用户行为日志呢?那它是怎么产生的,我们简单回顾一下,我们是不是通过买点,然后收集用户行为。
01:00
然后再产生这个用户行为日志啊对吧?那因为一般情况下我们这个呃,用户行为的买点呀,是专门给我们的数据仓库服务的,那所以说呃,一般情况下,呃,我们的用户型日志啊,在搭建数据仓库之前是没有的,那也就是说用户型日志一般是没有历史数据的啊那所以说此处哎,我们日志就是只需要准备诶6月14号这一天的数据就可以了啊那咱们具体的操作是什么呢?我们往下看啊,那首先我们需要先启动日志采集通道,那咱这里边是flu卡不卡加啊对吧?然后呢,修改我们两个日志服务器,一个是HIGHDO102,一个是HIDO103啊这里边的这个呃,模拟生成日志的配置文件啊,那里边呢,我们只需要改一个日期就可以了啊,然后呢,我们在执行生成日志的脚本,那这样一来日志就会通过我们的采集通道传输到HDS上了啊好,那现在呢,我们把这一步。
02:00
去落实一下啊。好,那现在我打开,呃,孩子102,好,那现在我们先启动啊,日志采集通道啊,那首先我们需要先启动组keepper,来咱执行一个这个呃,Zk.SH。好,那检查一下组K的启动状态,那现在已经是follower leader follow的状态,那说明组已经启动成功了,那接下来我们启动卡卡,呃,卡夫卡,点sh start。好,已经启动成功了,那接下来我们再启动两个日志采集通道,看看F一点。来f2.start。好,那现在我们呃日志的采集通道就已经启动起来了,那现在呢,我们进到OPT mole,呃,APP log啊进到这里边,那这里边呢,是我们模拟生成日志的这个呃,组件啊,那现在我们修改一下它里边的这个application点压面文件,那在这里边呢,我们需要将模拟生成数据的日期改成六月14啊,Shift zz关闭,那同样我们需要对103的这个日志模拟器做同样的修改,那进到log v面,然后呢,我们零后shift z,那现在呢,呃,我们执行log.sh,呃,模拟生成日志,那这个日志呢,就会被我们的采集通道传输到HDFS对吧?那现在我们可以先打开HDFS这个界面啊,Hi豆OP1029870打开,哎,咱们这个位置,我们这个日志上传到HDS是这个对吧?大家还有印象对吧。
03:45
Pro in,然后j Mo啊,里边有log啊,Topic log,那大家可以看到我这里边已经有之前生成的历史数据了,对吧,那现在呢,咱们把这个之前生成的数据先全部删除,我们在这儿呢,全部重新生成啊,我直接把这个路径删除就可以了。
04:01
啊,那现在原来的数据已经没有了啊,那现在我在执行log.sh生成数历史,呃,生成这个日志啊,那看一下这个数据能不能传输到我们的HDFS上来刷新一下,那在这儿呢,我们需要稍微等一下啊,因为这个呃日志的传输需要一点时间。来,我在刷新,嗯。要刷新。好,那这个origin date已经出现了,那说明咱们现在这个日志啊,应该就已经传输到了我们的H上,你看现在是不是6月14号这个路径啊,对吧?呃,然后大家要稍微等一下,等这个tmp的后缀啊去掉,也就是文件关闭之后,诶,我们再继续往下进行。嗯,稍微等一下。好,那现在我们呃,刚刚模拟生成的日志呢,就已经呃传输到了HDFS上面了啊好,那现在我们的用户行为日志的数据就准备好了啊行,那接下来我们继续往下进行啊,那用户行为日志完事之后呢,那就是我们的业务数据了啊,那业务数据与用户型日志不同啊,它一般情况下是存在历史数据的啊,那此处呢,我们呃模拟生成2020年6月10号到2020年6月14号这五天的数据啊,就相当于是模拟一下这个真实情况啊好,那咱们现在怎么去呃准备这个历史数据呢?我们看一下下边这个具体的操作步骤啊,那首先我们需要修改海度102当中的这个业务数据生成器的配置文件,那我们先将啊,这个模拟的日期改成诶6月10号啊,然后呢,我们再把这两个重置的参数打开,那重置参数打开,那它就会把我们这个数据。
05:44
库当中原来的数据先删除,先清空啊,OK,那咱们呃把它改成哎这样的之后呢,呃,我们执行呃,我们生成日志的这个命令啊,那完了之后呢,这时候就会往数据库当中,呃,写入我们这个十号的数据啊,那之后呢,呃,我们再重新修改这个配置文件啊,将这个把日期改成六月11,那同时呢,把这两个重置的参数改为零,那也就是说保留原来的数据,也就是我们刚刚生成的12的数据,那这时候呢,我们再生成11号的,那完事之后呢,诶,我们再把日期改成12号的,再改成13,再改成14,那分别去生成我们十号,11、12、13、14这五天的数据啊生成完之后呢,那我们在使用导数据的脚本,把我们生成的这个业务数据,把它导到我们的HDFS上面,那这就是我们业务数据的准备的步骤,好,那现在我们就按照刚才的这个思路呢,去操作一下啊首先。
06:44
我们打开这个HIGH102的连接,那现在呢,我们进到OPT module,呃,Dblo这个路径,那进来之后呢,我们修改一下这个业务数据生成器的配置文件,那这里边首先我们需要先将这个模拟数据的日期改成6月10号,那然后呢,需要将下边这两个重置的参数置为一啊,先删除原来的数据啊,然后呢,关闭文件,那这时候呢,我们执行Java杠这然后加上这个JA包,诶,点击回车。
07:15
那这时候呢,我们就会往数据库当中写入,呃,6月10号的数据啊。好,那接下来我们再打开这个配置文件,那这时候我们再将这个日期呢,改成6月11号,那同时呢,将下边的两个重置的参数置为零啊,然后shift z,那再执行刚才这个加va杠这的命令。啊,稍微等一下,那这时候呢,就会写入6月11号的数据啊,那重新修改配置文件啊,这时候呢,我们再把这个后边的诶日期改成12号,注意下面这个零呢,我们就不需要再做修改了啊,就一直保持为零就可以了,那这时候我们再执行加工杠这。哎,咱们稍微等一下。
08:01
好,那接下来我们再重新修改文件,这时候呢,我们给它改成呃,六月13SHIFT z z,然后再执行加油杠这。好,我们再打开这个配置文件,将日期改成六月14 shift CZ,再重新执行加杠罩。嗯,好,那现在我们就已经成功的往我们这个呃,业务数据库当中写入了十号,11号,12号,13号和14号的这个数据了啊OK,那现在我们需要做的事呢,就是使用我们之前所编写的scoop首日装载脚本,把这些所有的数据导到我们的HDFS上边,OK,那现在我们进到加目录来,进到BI目录,找到我们之前写的脚本,那现在我们需要用的脚本是谁呢?是这个啊,My circle to HD FS一点SH啊好,那现在我们执行一下这个脚本,点个my circle to HD FS,然后加SH,这时候呢,我们需要给传一参示,我们需要有的表,那完之后呢,我们再写一个日20201,那现在我们执行这个回车。
09:31
呃,此时就会开启scoop导数据的任务啊,那这个需要的时间可能稍长啊,我们等它执行完成就可以了。
我来说两句