00:00
接下来呢,我们要去做这个测试啊,那测试的话呢,首先我们得有这个订单和订单明细表的数据,对吧才可以啊,所以这个时候呢,先打开我们的这个。然后呢,那此时我们要想在订单和订单明细表里边有数据,对吧,那得看我们的real time,这个table process,那现在呢,这个order呢,我们只写了这个东西肯定不行,对吧?所以这个时候以前我们都单独手动,我并没有让大家直接去导那个脚本,原因是在于。啊,原因在于什么呢,我们。想要手动测试,让大家感受一下这里面每一个字段的作用,那现在我们要去做双流照并关联维度了,所以呢,我要把这个数据,哎,把这个表呢,这样啊删掉。
01:01
大家也一样的把这个表删掉,然后。运行我们的搜文件运行哪个呢?以前我们运行过这个是不是对吧,现在呢,我们运行它叫table process,建表加导入数据打开。好,然后呢,我们刷新这边呢,就多了一个table process表点开,那这个里边呢,就是我们所有的数据的全部都有了。啊,所有数据都有了,在这,而且每一张表呢,我都是按照ins色跟LD的两种方式,那有的比方说维度表。维度信息表对吧,那我呢是给他放在同一张表里边的啊,所以新增跟更新都放在同一张表,这个我们之前也看到了,对吧?那当然还有对于事实表而言,比方说我们找一个事实表。嗯,找奥林吧,来看啊。Order in for对吧?事实表来out in也有两条数据,一个in色update,但是我给它放了两个不同的主题了。
02:07
我给他发到不同的主题,这就是我们之前说的要分主题,大家还记得吧,我之前跟大家说的,我们要把新增和更新给它分开啊,还有印象吗?好对吧,所以呢,分两个主题,你就不用担心,诶这个表更改了一次,是不是又关联的我们的订单明细了,哎,不用操心这个事情对吧,完全不用操心,因为我们是给他放到两个不同的主题的。啊,放在两个不同的主题对吧,那这个搞好了啊,这个搞定了,接下来我们继续啊,要去造数据,那往里面造数据啊,那这边呢,我们要去干什么事呢?我们要开启我们的服务了,呃,那要开哪些东西啊,大家想一想,我先不写啊,因为这个还没到最后嘛,对吧,还没到最后,我先不着急写这个,那为了做这个测试,大家给我说一下。
03:17
我们要开哪些服务,你自己去整理一下对吧。来瞧一瞧。我们为了测这个内容,我们要开哪些服务?卡夫卡ZK。其他同学呢,有整理完整理完吗?就是我们要做这个测试,要开哪些东西。
04:08
卡玛卡和开是开的,然后呢,我们开SDFS,大家现在都不喜欢说话了是吗?弗Li CDC,卡夫卡倍DB。啊呃,一个是从这个服务来说的,一个是从我们当前的这个什么。Windows里边我们要开的link程序对吧?啊都可以啊行,那HD开了,但我们不要着急对吧,因为hfs呢,它需要退出安全模式,如果没有退出安全模式,那这个时候咱们要开启也白搭没有用,对吧。好让它开启了,那这个时候呢,我去做一个事情,做什么事呢?来我们之前都是手动做的测试,对吧,所以在DEMO末茯苓稿当中,我们再make第二一个叫RT_DB。
05:06
Real time DB这个目录对吧,CD到这个DB目录当中,现在肯定是空的,没有问题,然后out加P啊,CBCD的OBD model j末link,然后RTDB。啊,然后呢,把我们生成。啊,不是电商书仓啊,应该实时数仓这个啊资料对吧,然后呢,生成的业务数据的这个脚本也拿进来。啊,拖起来啊,那等会呢,这一块就是我们的Mo,它呢是直接把数据写到MYSO的,但这一边我们也有很多的配置文件,我们来看一下这配置文件呢,我从这个打开吧。这个更好看一点,对吧,从这个地方更好看一点。好,102,然后呢,选择G末link rt DB,然后application.part好,首先你拿过来要改的,我这边也有的要改啊日没什么说的,然后呢,我买搜个写买这个驱动要有,然后这个库一定要改一下,对吧?呃,我的库名呢是杠210325-Li吧,是不是我们要往这个库里边去写数据的啊,然后呢,入六个零,你看你是不是跟我一样,你要不一样要改一下,有很多同学喜欢用123456,对吧,一定要改的啊呃,那接下来日期日期呢,暂时先不用管啊,假如说你要想改也改一下啊啊改成今天。
06:38
好,日期改一下,好接下来就重置啊,是否重置,重置表示什么意思呢?表示我们把表先清空,再往里写数据,如果不重置,那就接着写的,假如说上一次造了十个订单,这一次再造十个,如果这这是一,那你将看到订单表里边只剩下十个,那如果你改成零,那么订单表就上去20条数据啊,是这意思,好是否重置用户,用户我们就不重置了。
07:06
对吧,用户信息呢,不重置了,生成新用户数据量零个啊,不生成新的,呃,用户的变化概率要不要改这个用户对吧?呃,默认的咱们现在用户表呢,是有4000个用户对吧?如果是2%的话,那就80个用户,可能会做到修改,那没有问题啊,那就80个也还好,呃,收藏取消的比率啊,这个无所谓,收藏量一次呢造100个,假如说这样吧,十个啊,造少一点,跟收藏数据现在没什么关系,对吧?然后每个用户添加购物车的概率,注意4000个用户10%,也就是说每次400个用户添加购物车啊,那当然了,我们可以改小一点。改小一点,因为现在我们要做双流招引,我们希望看一下这个数据量,他有没有丢数据,所以我希望调小一点啊,订单产生少一点,因为购物车概率低了,那订单的概率就会更低,对吧?啊好,那每个购物车的商品啊八个,呃,他的每次购买几个,最多三个没有问题,然后呢,呃,购物车数据来源,这个也不用管用户下单比率啊,30%可以,因为我们前面已经让购物车的概率低了啊,所以呢,这个30%差不多,如果说你想再少一点百分之十。
08:21
也行对吧,一次呢产生几个订单啊,这样呢,方便我们观察数据有没有丢,呃,那购买用户的比例这个就无所谓了,其他就不用管了,对吧,下面每一个参数呢,都有它对应的一个。内容好,那这块呢就搞定了。啊,这块就搞定了对吧?呃,这个改好之后保存啊,保存好之后呢,接下来我们就可以运行这个夹包去造数据了啊造数据了行,那此时呢,HDFS也已经开启了,我们看一眼啊。已经退出安全模式,然后接下来启动。
09:16
好,那这边呢,已经启动了h base,但是我们也要等到它初始化完成。然后我们进到菲尼克斯,因为等会呢,在菲尼克斯里边要建好多的表了,是不是大家应该有印象啊,刷新好,这个表呢,已经到位了,然后接下来呢,我们进到Phoenix。好,感叹号table,好,现在呢,我把这两个表删掉,因为我们之前建的表可能不太对嘛,对吧。
10:04
Table啊,现在呢,把这个之前我们做测试的表把它清一下啊。把这个表拿清掉,还有一个base,这张表也给它清掉,对吧,然后呢,重新去建这个表好了。感叹号,Table对吧,等会呢,我们重新去建这个库呢,还在啊,等会呢能新建表你能看到,诶等会呢,会有一样的0325,这个库底下也有这么些维度表啊好,那维度表当中的信息我们要不要给大家加载进来,大家想这一次做测试的时候,因为未来我们是要关联维度信息吧,所以要把这个维度信息加载进来。当然这个时候做双流join可以不做这个事情啊,那我们就先不做了,可以吧,好,那也就是说我们集群当中的东西,按大家所说的已经开启了,已经开启了啊。
我来说两句