00:00
呃,那咱们现在呢,先来看第一个吧,一个把它搞定对吧。呃,那么第一个呢,它其实是我们这个概述啊,主要是我们这个整个啊,就我当今这个项目的这概述,以及呢,我们现在这个数据的一个采集是吧,这个文档里面完成这些工作,对吧?那我们现在这个项目做的是什么呢?做的是我们这个实时项目,也就说和你们上个阶段他所做的项目呢,其实有区别的,你们上个阶段呢,做的是离线对吧?哎,而且大家呢,来总结出来对吧,各种各样的图对吧?但是呢,你不管总结出什么样的图,首先呢,你在做实时项目之前,你必须呢,得把咱们这个实时和离线的区别我弄明白。对吧,其实我们现在在对比实时和离线的时候,主要是不是从这么几个方面啊,第一个咱们处理的数据对吧,它的一个这个及时性啊,如果是实时的话,那么处理的时间呢,那么应该是比较快,但离线呢,处理时间要稍微慢一点,这是第一个,那么第二个,那么咱们这个处理的数据呢,是不是冷数据对吧,是不是叫冷数据,如果离线的话,你在处理的时候,这个数据基本上是不是已经固定了,你知道你现在要处理哪些数据,数据不会变,对吧?但如果实时呢,这个数据是源源不断的过来的啊,源源不断过的这个数据呢,就变化啊,这是第二个,那么第三个,那么咱们这个对比实时和离线还有一个什么呢?是不是还有一个,呃,T加零和T加一啊,对吧,那么如果说我现在处理是我们的当天的,呃,可以处理当天数据,那么这个呢,就属于事实,那如果说诶我现在是T加一啊,处理是我们作业数据的话,那么这个呢,一般是我们离线主要从这么几个方面啊,这么几个方面啊来。
01:46
点区分对吧,然后接下来你们做完我们现在的这个啊,离线之后啊,做完离线之后,那么你们呢,除了你们自己画的图之外,你们现在呢,要看这个图的话,你们应该感觉非常简单啊,就这这个图你们再来看一看,应该非常简单对吧?而且你们拿这图之后呢,你们应该给别人能够描述出来。
02:07
这个图你们见过吧,在采集的时候是不是就开始见过了呀,对吧?那么整体咱们现在呢,这个离线它的一个业务是什么样的呢?对吧?那么首先呢,这说下咱们得先去我们这个有数据对吧?先去这把数据打过来对吧?那么咱们在做项目的时候呢,这个数据,因为它来源于哪,是不是来源于我们现在这个业务系统啊,对吧?诶比如说我现在短操作的对吧,这个什么下订单呢或支付啊,甚至是我的一些行为,对吧?那么像这些数据呢,那应该是从我业务系统来的,对吧?但是我们这里没有这个环境,我没有去开发业务系统,所以说呢,你不管是做实时也好,做离线也好,咱们这数据呢,是不是都是通过一个我的下包模拟出来的呀,对吧?哎,在以前你们在离线的时候,你们把这个剩余的数据模拟出来之后,你们直接把这数据放在哪,是不是直接落盘了呀?诶我一运行,然后呢,他就帮我设成一些数据,然后放到我们磁盘的某一个文件里边,然后呢,我通过什来做采集,是不是这样的。
03:07
对吧,那么咱们这块呢,到底怎么落盘呢?我们需要自己来处理。啊,就是我们一会儿呢,我会给大家介绍,诶这个东西怎么去落盘对吧,那么这个东西我们现在怎么样去往卡卡里写,这个都是我们自己来处理,找到具体的过程什么样的呢?来那么咱现在呢,来看一看主要的数据呢,应该有两大部分。啊,主要的数据应该两大部分,一个呢是我们的业务数据,那么另外一个那是什么不应该是我们的日志的对吧?这个日志的一般是在我们这个前端买点对吧?然后呢,采集用户的一个行为啊,采集业务的行为,然后接下来那么咱们现在呢,那我要把我的业务数据端他的一些业务都提交,然后提交交给谁交给他的业务服务器,那么同时呢,那我现在把我这个数据拿到之后,我把这个数据保存那了,一般业务数据是不是都是保存到咱们这个关于数据库里边的,对吧?比如说我现在的一些什么订单呢,对吧,比如说咱们现在它的一些我们这个对吧,这个支付信息啊,对吧,等等对吧,像这些东西呢,一般是保存在我们这关系数据库里边,那比如说我们现在这里是买circleq啊,比如说咱们这里边呢,是我们这个买折口,对吧,然后接下来那么咱们现在呢,除了业务出境之外呢,还有什么,还有我们现在对的日志,那么日志呢,那么咱们可以。
04:28
对吧,原来咱们怎么做的,原来咱们是不是直接你在这里一运行咱们这个包,但是这是不是直接就落盘了,怎么落盘呢?导就这个东西中间经历了什么对吧?中间经历了什么对吧?你们的应该在后边,你的禄应该在后边对吧,这个东西怎么样去把这个东西落在盘了,对吧?那么这块呢,我们要给大家做一下,其实做这块目的是什么呢?其实这块如果要是真做的话啊,应该属于谁的活,应该属于Java的活,对吧,但是对吧,有可能你们公司这个活就让你干。
05:03
对吧,就你们现在大数据说老师我现在做大数据开发对吧,我就会写circle狗就做实施,对就会做咱们那个什么flink对吧,Java代码一点不会不行,同学们对吧,有可能稍微短一擦边对吧,也就写扎va代码对吧,那么一般咱们现在扎va代码在开发的时候对吧?那么一般都用什么SSM吧。俩S啊SSM对吧,那么我们现在呢,在咱们这里边,如果说啊,要是我们现在的这个一点不会的话,这也不行,对吧?所以说呢,我们在我们整个这个项目的过程中呢,那其实呢,也会逐渐的对吧,就逐步的给大家渗透一些我们这扎的东西在里边啊,逐渐会渗透一些管扎的东西在里边,对吧?然后接下来那我现在呢,在咱离线这里啊,我们这落盘了对吧?这这这这是落盘了,那落完盘之后呢,那么咱们现在是不是要把这个数据给它保存到我们的ADFS上呀,是吧?那么我现在如果要是保存ADFS,那么中间怎么传输呢?是是在这里是要有一个我们的flow来进行传输啊,我问大家不用flow行不行,不用传输行不行。
06:11
就用吧,不用行不行可以,那为啥还用。啊,不用你们自己能写出来啊,不用你们自己能写出来吗?你们是不是得自己去写我们这个读取咱们这个磁盘文件对吧,这样的这个这个方法,然后你是不是在网页点上去写呀,对吧?所以说咱们有现成的时候直接用就可以了,不用卡不卡行不行啊,为什么在这加卡不卡呢?普通直接在咱们这里面从我们指定的字盘文件拿出去,然后往什么这个ad上写,是不是有ADS啊,那为啥还用卡不卡。啊,叫什么萧峰啊。慕慕容复是吧,想着想想都很很很很丰富是不是对吧?那么一般咱们的卡普卡属于什么卡夫卡呢?它属于我们现在这个中间键对不对,属于我们消息中间键,那么如果要是消息中间键的话,那大家想一想,那么它的主要作用,第一个系统接用。
07:21
的第二个咱们现在呢的异步通讯,那第三个流量消峰的流量消峰,对我在这里,为什么我现在啊要在我的副room和每一点之间,然后加一层卡不卡对吧?就是因为我有可能的日志啊特别大,你想一想,咱们现在在休息的时候,今天周六每个人都打开头条在不停的刷,对吧,对吧,然后呢,我现在刷的时候,头条是不是还得给你推你感兴趣的东西啊,对吧,那你想这感兴趣东西他怎么给你推送的,他是不是得记录一下,你没事看什么呀。对吧,比如说班长没事是吧,就盯着娱乐八卦来看,那你说我是不是得没事就把这个行为记录下来对吧?那么这个时候大家想一想,这个日志的量是不是非常大呀?如果说你现在这个日志量非常大的话,直接往ADS写这个ad的时候有可能受不了,对吧?所以说咱们把它放在哪呢?放在我们这卡卡里面去说老师你放的卡卡,最终你不还是在往一边上写吗?怎么样消峰了对吧?原来呢,你可能是在我们这个对吧,比如说在咱们这个十毫秒对吧,然后呢,你往我们adl写对吧,比如说5000万条数据对吧,比如说5000万条数据对吧,现在呢,我放在卡夫卡里边对吧,同样是5000万条数据,那么这个时候呢,你可能100毫秒写过来。
08:39
但大家想想这个时候它的压力是不是要小一些啊对吧,这个呢,其实就是我们的一个卡卡在这的目的,你们当时在采集的时候是吧,这说配置的配置很有影响吗。China用的是什么?China用的什么是你们拆做选择题吧,你们China用的是我们这什么fair fair channel还是什么Mary channel Mary channel是吧?哎,那你们就是掉坑里面去了,你们应该用的卡卡才对,是不是对吧?我让你们自己答的话,对吧,你们好像还行是吧,但是呢,对吧?如果说你做个选择题的话,对吧?你注意啊,你想一想,你当应该用的是我们这卡普卡铁统对吧,卡卡铁对吧?然后接下来呢,那么咱们现在呢,这里注意啊,如果说你对这方没印象的话,你要回头去看啊,其实咱们做项目就是这样,如果说你觉得哪块这主要师这这讲的什么,我怎么没见过这个东西,那就回头到你的采集这去看啊呃,然后接下来同学们,那我现在呢,这HDMS里面有咱们志数据了,那我是不是还想办法把咱们买SQL业务数据给它放到我ADS里啊,对吧,那么我现在呢,要想同步我们这个MYS业务数据,咱们使用的是SCO,对吧。
09:53
这个SCO其实就一个工具吧,是吧,就一个工具对吧,然后呢,把咱们这个把这个数据给我同步到我们的adms里面来,是吧,然后接下来那么我现在在atms里边,那么是不是就你们上个阶段要做的事的呀,对吧?对我们这个数据做一些什么,各种各样各种不同维度的一些分析,它的一些计算,对吧?而且你们应该是分层了吧,分几层,五层都哪五层,Ods j WD d ws j WD,还有一个ADS,对吧,每一层干什么的,那你应该知道对吧,那么咱们现在这个分层,其实你们是不是应该是在have里边做的,对吧?他还没有做的,然后接下来,那么咱们现在呢,把这个数据处理完之后呢,那么这个时候对吧,那么有可能呢,我就要把最终结果给他写到买搜Q里面去。
10:46
对吧,诶这个呢,你看对有可能直接做展示了,对吧?那如果做展示的话,对吧?哎,那么它有一些可视化框架,那么也有一些,咱们在不同的层是不是可能做一些机器查询呀,你们在我们离线的时候,机器查询框架用的是什么啊啊用你们两个都用了是吧?啊麒麟和price都都用了是吧,对吧?哎,那么咱现在呢,在咱们这里边,你们呢,可能有一些什么麒麟呐,德鲁伊用了吗?啊德鲁伊你得知道是吧?这个德鲁伊都要注意,和咱们那个什么C3P0DBCP什么德鲁伊那个不是一回事。
11:20
对吧,这个一说多录一,我知道有三台P0有DVCB有德路一对吧,这个不不不是一回事对吧,那个是连接池,这个呢是一个机器查询框架对吧?那么咱们现在呢这里对吧,在我离线里边对吧,用的是我们这个麒麟还PAL对吧?然后接下来呢,那么咱们这里呢,还可以干什么呀?对吧,像这几个东西干什么的呀。这个听过吗?原数据管理的对吧,然后像这些是不是做一些咱们那个检测的是吧?哎,这个东西呢,就是关于我们离线这一块。
我来说两句