00:00
好,那上一节我们已经完成了熟悉业务数据的工作啊,那从本节呢,我们就可以开始业务数据的采集模块了啊,那这个业务数的采集,我们要做的核心工作实际上就是将买当中的业务数据同步到我们数仓的HD上面。啊,那咱们去同步这个业务数据的方式啊呃,我们大致可以分为两类,那一类呢是批量同步,还有一类呢是实时同步啊,这个批量同步呢,我们可以借助scoop或者是data叉啊这样的一些数据库同步工具啊,那实时同步呢,我们可以使用K或者是max这些数据库同步工具,呃,这些实时数据库同步工具呢,一般情况下都需要mal去开启blo啊,这个要注意一下啊啊,那这个批量同步啊,我们一般情况下就是一天同步一次。啊,如果这个数据啊,它变化的比较频繁啊,比如说我一天变化多次诶,那这时候我们使用scoop或者是data叉哎,这些工具进行批量同步啊,就不能获取数据在一天当中的中间状态了啊,也就是说中间状态会丢失啊,咱们是拿不到的啊,那如果说我们业务当中啊,要求我们必须得拿到中间状态,那这时候呢,我们就不能使用批量同步了啊,就得考虑使用K或者是Maxwell来进行实时同步了。
01:24
啊,这块呢,大家一定要注意一下啊啊那在本项目当中呢,哎,我们使用的是scoop这个方案啊好,那接下来呢,我们就可以准备去进行这个业务数据的同步了啊那当然呢,我们要做的第一件事儿就是得先准备业务数据对吧?和我们前面的用户行为日志一样啊,这个业务数据啊,在这儿也是给大家提供了一个数据模拟器啊,我们可以根据自己的需要啊去生成相应的业务数据,呃当然啊呃,我们所需的业务数据啊,也可以通过在商品会诶这个电商平台诶进行加购下单或者是支付等这些业务操作得到啊,但是呢,这样的一个效率就太低了啊,那所以呢,此处我们统一使用数据模拟器就可以了啊,那虽然咱的数据啊是模拟生成的啊,但是这个数据的结构啊,以及数据的业务逻辑啊,与我们直接加购,直接下单,直接支付得到的数据是一样的啊,那所以说我们用起来是没有什么区别的啊啊那接下来呢,我们就可以准备生成咱们所需的业务数据了。
02:25
啊,当然啊,我们得先安装my circleq数据库对吧?啊OK,那现在呢,我们先拿到my circleq的安装包啊来,我们打开给大家发的资料啊,在资料里边呢,有一个my circleq对吧?这里边诶存放的就是买circleq的安装包,大家注意观察啊,买circleql安装包呢,是不是都是RPM包啊对吧?而且这儿呢有多个啊,并且这多个安装包之间啊是有依赖关系的,所以说我们在安装的时候呢,必须得按照一定的顺序去安装啊,所以在这儿为了方便啊,我给每个安装包前面都加了一个序号,那大家安装的时候呢,按照这个序号啊,从一开始安装就可以了,OK啊,那下边呢,还有一个my circle的GDC驱动,对吧?啊,这个后续呢,我们会用到啊,啊,那现在我们把这个安装包上传一下啊,上传到什么地方啊,是不是之前咱们都给它上传到了OPT software里边,对不对。
03:12
那这里边呢,安装包已经比较多了啊,而且后续呢,我们还会再上传很多的安装包啊,所以说看起来会比较乱啊呃,在这儿我给他整理一下啊,咱们为每一个组件都创建一个目录啊,来我这儿先创建一下make DR make DR啊,然后组。哎,Make DR。哎,Make DR,再来一个Java吧,啊,再来一个卡夫卡。好,最后一个呢,是咱们的my circle啊好,那我现在呢,把每个安装包都放到它对应的目录里边啊来第一个呃,Flu放到呃里边啊,第二一个呢,是吧,嗯,阿帕奇per放到里边,那然后呢是op啊,放到这个op里边啊,应该是hiop啊,然后放到里边啊,最后呢是JDK,然后呢,给它放到Java里边啊,最后一个是卡夫卡,给它放到这个卡夫卡里边。
04:05
好,完事,呃,这儿还有一个big table的拉泽罗,是一个拉泽罗文件,对吧,这是之前我们做测试用的,对不对,这不需要了,给它删掉就行啊2M啊,Big table好删除啊,OK,那接下来呢,我们就可以进入到my circle这个目录里边,然后呢去上传我们所需要的MY的安装包了啊来,我们打开这个数据的传输工具啊,弄完之后呢,找到我们的资料啊在这儿,然后呢,找到my circle啊之后呢,把我们所需的这几个包统一的上传一下,右键传输。好,这个需要一点时间,我们稍微等一下啊好,那这个安装包呢,已经上传完毕了,我们来查看一下啊,好,应该是没有问题的对吧?OK,那接下来呢,我们就可以开始安装my circle了,来我们打开文档啊,然后照着文档呢去安装一下,那首先我们来到my circle安装这一节,对吧?第一步安装包我们已经准备好了啊,接下来继续往下走啊,首先呢,我们需要先去检查一下啊,我们的服务器当中是否自带my circle啊,如果有的话呢,哎,我们需要先给它卸载掉啊OK,那这个检查和卸载的命令呢,就是这个,然后我先粘出来,然后给大家解释一下啊来CTRLC我们来到102啊,咱的买circlel呢,就统一安装在hi杜102这台节就可以了啊来我们看一下这条命令啊,首先在这儿使用RPM-QA去查询我们安装的所有的RPM包对吧?那之后呢,使用grpe-I-E啊去过滤买circle或者是Maria DB对吧?那这个杠I的作用呢,就是忽略大写啊,杠E呢就是支持正德表达式,没错吧,OK,那这样一来的话呢,是不就能够。
05:36
将我们系统当中自带的my circlel或者是某DB相关的RPM包给过滤出来啊,对吧?啊完之后呢,我们再使用XX这个命令啊,将上一个命令的输出啊,作为下一个命令的输入,没错吧?那咱们下一个命令是谁?下面是不是S度RPM杠一,然后杠杠nos对吧?这个是不是就是移除RPM包的命令,没错吧?那这样一来我们就能够将系统自带的my circle或者是Mar DB的包给它卸载掉了啊好,那现在我们回车执行一下。
06:11
OK,那执行完成之后呢,诶,我们可以把这个命令的后半部分给它去掉啊,哎,咱们只保留前面的查询这部分对吧?哎,可以查询一下。啊,大家注意观察,现在是不是没有东西啊,对吧?没有东西那就说明我们现在这个系统里边已经没有了my circle或者是DB的包了啊好,那接下来呢,我们就可以准备去安装买SL数据库了,我们就按照这个序号的顺序去安装这些RPM包就可以了啊OK,那咱的安装命令呢,应该是速度RPM-IV对吧?哎,我们先安装第一个零一,然后回车啊OK呢,之后我们再安装第二一个。来,零二走。啊完之后呢,再安装第三一个零三。好好,那我们继续往下进行。该零四了,对吧。
07:01
啊,这是麦克兰。OK,那接下来呢,我们再安装最后一个,哎,零五。比如说啊,最后一个呢,才是MY的server对吧,那这个包比较大,安装的可能要慢一些啊,咱们稍微等一下。好,那最后一个也安装完成了,然后有一个注意事项,我这儿需要说明一下啊,就是有的同学呢,他在安装这个MY克的时候呢,可能会诶提示某些依赖是没有的啊,这个是因为什么?因为有的同学他安装的这个系统呢,是Linux最小系统对吧?那最小系统呢,是不是就有一些包是没有的呀,对吧?啊那这个问题怎么解决呢?很简单啊,它提示没有哪个依赖,那我们就使用样M命令去安装相应的依赖就可以了啊,那现在我们的my circleql就算是安装完成了啊,那之后呢,我们就可以去启动my circleql,然后呢去做相应的配置了,好,那现在呢,我们先把my circleql启动起来,这个就是my circleql的启动命令啊来,我们拿过来,放在102执行一下速度,System CL star d对吧,回车。
08:02
好,应该已经启动起来了啊,我们查看一下它的状态啊,我们把这个start换成status对吧?OK,那现在是不是就是running的状态呀,对吧?应该是已经启动成功了啊,OK,好,那接下来呢,我们需要去查看一下诶,MYSQL的root用户的初始密码啊,这个初始密码呢,哎,它会打印在这个MYSQL的日志文件当中,那在这儿呢,我们使用CAD,然后grip一下啊,来,CTRLC拿过来,完车回车。啊,那这个呢,就是my circleq的初始密码,然后大家注意啊,就这个初始密码当中呢啊,因为它是一个随机的字符串,对吧?里边呢,可能会包含一些shell当中的特殊的字符,那我们为了避免这个密码被这个shell错误的解析啊,所以说我们一会儿登录的时候,最好给这个密码呢,加上一个单引号,单引号是不是能够原样显示啊对吧?好,那现在我们登录一下啊,我们使用my circle,然后杠u root啊然后呢,后边来一个杠P,诶,加上一个单引号,把这个密码放进去,然后回车,那现在呢,我们就以root用户的身份登录到了my circleql当中,对吧?啊OK,那接下来看一下我们需要做哪些工作啊来往下翻啊,就是后边我们主要就是呃,给root用户改一个密码啊,然后呢,配置一下root用户的远程访问权限啊啊,那现在呢,我们先修改一下root用户密码啊,那此处呢,我们为了方便啊,咱们给root用户呢,改一个简单好记的密码啊,比如说六个零,那现在我先直接执行一下这个修改密码的命令啊,来CTRLC,诶我们给它拿过来,Set password等于。
09:28
错的六个零对吧?诶,然后我回车,然后大家要注意啊,你会发现他这儿会报错对吧?他报的错是啥呀?说我的密码呢,是不符合现在的密码策略要求的,对不对啊,说明什么呀?说明咱现在这个密码是不是过于简单呀,那所以说呢,我们现在需要先设置一个足够复杂的密码啊,之后呢,再去调整一下这个买车库当中的密码策略,诶再然后呢,我们才能够去修改成简单的密码啊好,那现在我们先设置一个比较复杂的密码啊来我们直接回车,OK,这个密码是没有问题的对吧?那OK,那接下来呢,来我们再去调整一下MYSQL当中的密码策略啊来CTRLC啊来我们来观察一下这两个命令啊,一个命令呢,是设置了一个参数对吧?这个参数啥是password lengths是不是就是密码的长度啊,对吧?在这儿呢,我们给它设为四,也就是说我们密码长度呢,最小可以只包含四个字符啊,弄完之后呢,诶,还有一个密码的强度的策略,这个策略呢,也是分不同级别的,零是最低级别啊,也是。
10:28
最简单的一个策略啊好,那现在呢,诶,我们就可以去设置这个简单的密码了,OK,那现在我们再把这个诶六个零给它设置一下来,CTRLC。好,回车,那现在我们root用户的密码呢,就是六个零了啊好,那完了之后呢,我们还有一件事儿要做啊,那下来要干啥呢?诶,接下来我们需要去配置一下root用户的远程访问权限,因为默认情况下啊,我们root用户呢,是不是只能在这个数据库的本机登录啊,没错吧?啊OK,那现在我们需要去配置一下远程登录,那怎么配置呢?其实很简单啊,首先我们需要先进入到诶my circlel这个库来我们use一下my circleql库之后呢,我们需要去修改一下这个库下边的哎user表,好,我们现在可以先查看一下,我们要修改这张表啊,我们select,哎,User里边呢,还有一个哎,Host,然后呢,From user回则大家注意观察啊,那这个user呢,就是我们的MYQ的用户,那这个host指的是什么啊?实际上指的就是哎,该用户能够登录的节点啊,那现在root用户是不是只能在local host,也就是本机登录啊,没错吧,那现在我需要给它改成任意节点,任意节点怎么改呀?这很简单,是不是把local host改成买S当中的一个通配符?
11:38
也就是百分号就可以了,没错吧,啊,OK,那现在我们执行一下这个修改语句来CTRLC啊,然后呢,我们去执行一下来回车,好,那现在我们再去查看一下这张表中的数据啊好,那现在这个root对应的host是不是已经是百分号了呀?好,那这个表就改完了,那最后呢,我们还有一步啊,就是需要去刷新一下这个权限来fresh,然后回车,好那现在我们quit一下退出,OK,那到现在呢,我们买S呢就安装完成了。
我来说两句