00:00
然后接下来啊,那么咱们这个实时注意,因为离线咱们前面接触过对吧?那么咱们来看一看实时大概它的一个我们这个这个直音过是什么样的啊,主要看一看我们现在和离线的大的区别是什么啊,我们大概做这个项目的思路是什么啊,首先呢,这个数据啊,还得去获取,这个呢,那肯定是一样的对吧,跑不了啊跑不了,然后接下来那么咱们现在呢,在这里也是对吧,把这个数据呢交给我们,现在呢,把业务数据交给my circle,然后呢,咱们这个日志对吧,这块呢,我要改一改了,对吧,原来咱们这里是日志直接落盘了呀,现在到底日志怎么处理,我来说对吧,就这个东西呢,我希望大家呢,把对日志的一个处理啊,对吧,我们自己来做,因为什么?因为你现在如果要是前台买点的话,那么他只负责什么,他只负责把数据给你,比如说你们约定好了,我现在啊,在这里我用了一些比如说前端。
01:00
买点这样的一些我们这个产品对吧?然后呢,你从前端到出发的买点之后,他们会把你现在收,他把收集到数据给你发送到某一个地址上,比如说诶,我现在啊,我这只要用户点击了,那我就把用户点击的操作发送到HTTP,然后接下来比如说什么什么什么,然后这里边有一个APP的log,哎,比如说发送到咱们这个地址上,那么你想想前端往这边发,你是不是应该从这个地址把这个数据给拿到对吧?那拿到之后你怎么处理呢?原来咱们这工具啊,它其实呢,帮你们做了,拿到数据之后直接就落盘对吧,保存到他磁盘呢,我么log fair对吧,直接保存磁盘上,现在呢,我希望大家自己来对这个数据做处理,对吧?那我怎么处理,我可以保存到磁盘上,我也可以怎么办?我可以把这数据啊发送给卡夫卡。对吧,发送到卡卡里边,那发送到卡卡里面去,为什么要把卡卡发送呢?对吧,大家想一想,你们学过两遍巴stream。
02:01
对吧,咱们SPA推民它是不是做实时计算的呀,这个实时计算它这个数据主要从哪来,是不是从卡卡来呀,对吧?所以说我现在呢,要把这数据哎发送到卡卡里边来,对吧?那么这块我今天呢,会带大家来做怎么样,对吧?把这个数据对吧?哎,我抽成数据了,然后最后呢,由你写代码发送到卡卡里面来,对吧?然后接下来,那我现在这时候这是日志啊,除了日志之外,是不是还有咱业务数据啊,对吧?那么业务数据在哪?在买SQL里边对吧?那么我现在怎么样把MYSQ里面数据也给它放到我的卡卡里边来呢?那么这个时候SCO就不行了。啊,Scope这就不行了,那么咱们这里呢,给大家介绍我们另外两个,我们这个同步,我们这买数据到卡不卡这样的产品,一个呢是我们的canon,那么另外一个呢叫Maxwell对吧?那么这两个呢,咱们都会给大家介绍啊,这两个都给大家介绍啊,然后接下来那么咱们现在呢,把这个数据拿到卡不卡了,那么接下来咱们是不是就可以做实时计算了呀,对吧,就根据你的需求,你要对什么样的维度来做一实时计算,对吧?那么实时计算咱们使用什么呢?咱们可以使用我们的SPA streaming,或者是我们的Li。
03:13
啊,来对我们卡卡数据来进行实时计算对吧?那么在我们计算的时候呢,那么肯定也涉及到一个分层啊,就咱们和我们这个在离线一样,它也会分层对吧?那么这个分层呢,我虽然说画到这儿了啊同学们,但其实你说我数据在哪了,我的数据是不是在卡卡里边的对吧?其是呢,我们要离线,它是分层在have里边完成的,那么如果是实时呢,那其实分层呢,它其实是在咱们卡卡里完成的。对吧,在咱们卡不卡里面对吧,完成实施呢?啊什么意思呢?说老师这卡不卡怎么完成是就完成什么呀,完成它分层啊对吧,我从卡不卡把数据给拿到之后,我是不是可以再拿SPA进行处理,处理完之后,比如说我做什么清洗啊,就做什么过滤啊,完事之后我可以再怎么办呢?看这个箭头再写过去吧,对吧,再写个卡不卡对吧,原来我这个是什么呢?比如原来是我们的ods层,对吧,那我处理完之后,那可能是A,我现在呢DWD。
04:07
对吧,然后接下来我现在呢再处理,然后处理完之后返回去什么DWS对吧?哎,那么这块呢,注意其实呢,我们是在卡卡里面做的,对吧?那么同时呢,你现在对每层数据呢,那也可以做一些什么呢。做一些我们这个展示对吧,做一些种展示对吧?那么如果在做展示的话,对吧,或者说做一些我们机器查询的话,那么这个时候呢,你就可以使用我们一些低查询对吧,这样的框架,对吧,比如说麒麟P对吧,那么像这两个咱们在离线里面用过呀,对吧?那么咱们现在这还有什么呢?我们在这里主要给大家介绍这两个,一个叫clean house,一个呢叫elect search是吧,昨天的上班同学吧,有有有两个组团问我问题说老师啊,现在这个集器查询框架啊,我怎么来选,就像我现在问你们,你们怎么去选择麒麟,还有咱们的PAL啊,一般这些东西轮不到你选,对吧,那就可能就咱们现在讲,假如说啊同学们,那么这个东西可能是你去咱们的公司工作的时候,这个东西他们已经选好了对吧,已经选好了对吧,但如果说让你选的话,那就找什么呀,我估计大家选的微标准就是你更擅长的对吧,你会不会用对吧,我觉得就是如果是这是你。
05:21
你去公司以架构师身份去的,出来你选一个集团框架,你肯定找一个你会用的。对吧,哎,所以说呢,同学们在这里啊,就关于我们现在之所以说老师你看你们这里为啥又借了clean林house就建了104,你这一个我觉得都简单对吧,就说咱们以后呢,就是你们比,比如说你们在写写简历的时候,说做什么实施项目,你们可能不会把这都体现出来,对吧,但假如说我们这个项目用的什么呢?我们项目用的electric search。啊,我相用你来search对吧,然后呢,为什么给你聊你click house你了解吗?对吧,我没事的时候看过官网看过一些对吧,然后你在这一说对吧,那会非常超出的预期的。
06:01
对吧,就是如果说我现在就是比如说我现在其实整个在咱们这个这这个大数据企业里边clean house呢,其实用的更多一点,对吧,但如果说诶你不小心在面试的时候正好对吧,他们企业用clean house啊,一联四的用的多啊,如果说正好他们这个公司呢,用咱们的clean house,然后呢,你还能跟他聊到一块去对吧,聊到一块去对吧,就不说别的,就假如说我现在哎呀这可学号子我看过一些对吧,但是呢,这个资料其实不是特别多,对吧,你现在的经书就一本,就如果你知道这个对吧,他都觉得这个你肯定看过。对吧?哎,所以说呢,大家注意咱们在这里呢,把律基查看查询框架这块是吧,我们主要介绍这两个对吧?然后接下来那么有了这个之后呢,那么咱们其实对吧,可以做展示了,做可视化,那么可视化呢,那么你们上个阶段这个离线可视化用的是什么呀?Super set是吧?哎,Super set,那么咱们这里呢,呃,自己写了一个可视化这样的一个程序,包括这样的一个应用是吧,那么底层呢,封装一差,在我这个阶段把这个东西呢,你拿出来直接用就行啊,不需要你去写对吧,就已经有好了,这个这个已经已经提供好了,你到直接用就行,对吧,那么咱们呢,除了我们这个super set之外,在这里还有一个什么呢?叫K班的。
07:17
Keep班的听说过吗?Elk听说过吗?Lock lockte听说过吗?对吧,那么咱们现在呢,注意啊,可能是什么,可能是你们对吧,没太注意对吧,就是说在讲这个采集的时候呢,那应该给你们说说果现在啊在这里我呢要把这个数据给采集过来,对吧?那比如说我要采集我们这个买搜狗数据的话,到这个adms对吧?那么这个时候你们用SCO,那么关于咱数据传输的这个框架都有哪些呢?浮动算,Scoop算,Maxwell算,K算,然后呢,咱们这个date,我们这个叉对这算。对吧,这这也算对吧,那么咱们现在呢,除了这个之外还有什么,还有long stage啊lowage,那么这个long stage其实呢,它和我们这个elect search,然后S以及咱K班的他们三个是一个组合。
08:06
对吧,叫elk啊,其实呢,我们现在这是我们这个elect它提供的这么一套啊吧这个程序,那么在咱们这三个框架里边,它完成什么功能呢?Electors主要做咱们的分析和存储对吧,这个呢做咱们数据传输,然后这个呢,主要做展示,对吧?那么我们现在呢,在我们这个分析的时候,对吧?比如说我们现在诶在哪一层,我把什么什么维度给分析出来了,那么分析完之后把这结果保存哪呢?我可以保存到我们的electce里面去,对吧?然后接下来那我可以通过K班的来对它做一个展示啊,通过K班的来做一个展示,这是一种比较这个常见的展示方式啊,其实我只用我的机器查询框架,或者说哎,我直接从买soq里面拿数据,然后呢,来调用我相关的可视化来进行展示,但是有的时候呢,同学们有些公司对吧,他觉得可能现成的东西不好对,我公司养了一半这个这个对很多短到前端他们的能力呢很强。
09:03
啊,作用能力很强对吧?然后他们写的这个东西啊,比这个K班的,比这四诊断,比这个superet要强,比这个功能要强大,对,那我用我自己的,得用我自己的,那么如果用自己的话,同学们大家想一想,那么你是不是得对吧?把什么呢?把数据给前端传过去啊对吧,那么数据给前端传过去,那么这个时候呢,就是你和前端的妹子是吧,沟通的一个最好的时机了,对吧,对吧,就这块儿呢,大家注意这个得会对吧?所以说呢,就为了以后你们和前端沟通方便一点,咱们呢,特意给你加了好几天的课,是不是对吧,就是干什么呢?就是咱们要开发数据接口。啊,开发数据接口。就什么叫数据接口,就是说咱们现在想展示对吧,想展示什么呢?比如说我现在想展示一个对吧,什么套盆对吧,但是呢,我在展示的时候,前端的他做了一个非常非常漂亮的一个这样的一个图出来,对吧,但是就没有数据对吧,那么你现在把数据给他怎么给他,你和前端的这个人说好是吧,只要你啊去访问什么什么什么以什么样的形式对吧,去访问这个地址对吧,那么你就可以拿到数据,这个数据的格式什么样的呢?诶你给他说好对吧,你需要给我传什么参数呢?比如说我现在想按天来统计,那你给我传个日期,这个日期的格式什么样的,对吧,你得给人说好,得约定好啊,你得把这个约定好对吧,这是一件非常好的事儿,是不是?
10:27
好了,那么咱们现在呢,这是关于我们这个数据接口对吧,那么如果数据接口把提供好的,就有可能你在这接查询完之后呢,把这个封装一个数据接口这块呢,其实也是我们这个Java代码这块呢,这块其实主要是对吧,也是我的Java代码对吧,那么像这块呢,其实对吧,和我们来比啊,就是打擦边球对吧,就正常情况,你的工作重心不在这儿啊,你的工作重心不在这儿对吧,但是呢,你在咱们这个企业里边,对吧,有非常大的几率去做咱们这样的事儿。啊,有非常大的几率去做这事儿,就有可你和渣手打交道,那就得做这个对吧,如果说你要去和他前台打交的话,这块尤其是这块对吧,那基本上就避免不了对吧?经常有这个这个学生出去说,哎,老师让我写一个接口,接口不是interface吗?有什么可以写的是吧?比如说我现在提供一个什么接口是吧,你说咱们现在一般说调,就是说如果现在写一个什么支付程序,咱们一般怎么做这个东西,简单调支付调咱们这个微信和支付宝的这个支付接口是不是就可以了呀,对吧?诶这个接口和咱们e interface是不一样了,对吧?所以呢,咱们到时候就做一个,诶数据接口啊,这数据接口这是什么呢?这是关于我们现在我们大概啊,要这个做的一个架构啊,就是大概整个实时的项目,它这个架子这样的。
我来说两句