00:00
好,那接下来呢,我们开始第二章,第二章主要讲的是实时需求的一个概览,就是说我们未来要做成什么样子,其实那个图呢,我们之前给大家都看了,对吧,所以呢,这一张比较简单啊,之前我们就说了听一个热闹,这块讲的也比较快啊。第一个是离线和实时计算的一个比较,那所谓的离线计算呢,指的是在计算之前就已经知道了。所有的输入数据了。对吧,而实时计算不是的,我在启动的时候呢,只能说数据刚开始来了,对吧,数据才开始来啊,那如果说数据还在正常输入过程当中,我们要再对过来的数据再进行处理,其实这就是两者之间的一个变化啊,两者之间变化,但是我们要说的不是这个点,还有一个东西啊,是区别于离线计算和实时计算之外的,我们还有一个东西呢,叫什么叫这个。
01:03
及时查询。啊,一定要注意一下,在这个当中呢,我们还有一个东西叫这个集析查询,那我问一下大家,大家觉得这个急息查询跟我们刚才所看到的这个叫离线。计算,还有这个实时计算。之间有什么区别啊,刚才我们聊的是实时跟离线。之间的区别,那现在你想一下啊,就是极喜跟这两者之间大的有什么区别?啊,这个时候呢,可以把你的想法敲在这个弹幕上。这延迟这么高吗?临时需求及查询小,不普遍,实用性不强。更灵活。可以根据临时需求写及其。
02:03
是临时的需求。其查询得要已有分析后的数据。呃,有的同学达到了,其实我们来看一下,它最大的一个区别呢,在于离线计算跟实时计算呢,它突出的是需求的叫固定性,什么叫需求的固定性呢?你比方说离线计算,离线计算呢,咱们假如说是按天计算指标,是不是每天有定时任务做数据分析啊。对吧,每天都有这个。任务固定的任务,而实时呢,实时计算的话,咱们应该是这种七乘24小时。去运行的,也就是说这种需求啊,也就相当于你的项目经理或者说产品,或者说你的组长给你布置的这个需求,说你把这个需求写一下,然后每天都需要,或者每个月每周对吧,这种呢,突出固定性,而这个及时查询呢,那就相反嘛,对吧,那这个时候呢,我们突出一个需求的。
03:10
叫临时性。啊,刚才有同学就答出来了,对不对啊,像这个,呃,向总啊,还有这个。贾明,对吧,啊陈啊,然后呢,这个孙总啊,都都答出来了这个问题啊,其实他突出的一个需求的临时性,他不需要每天或者固定的去算这个指标,而是比方说今天公司领导要开会了,说诶告诉你,嗯,这个小磊啊,你你把这个。这一个月的,或者说这个月一号到七号的什么什么数据给我写出来,我呢要做一个什么事,我现在开会要用这个数据啊,可能过了今天以后都不再求这个需求了。对吧,类似这样子的,它突出的呢,这个需求的一个临时性啊,它主要强调的是需求的临时性,这个我们要清楚的OK吧,啊是这样的一个点能能明白。
04:07
明白的扣一。动动小胖手,你看你现在都在家里学习了,对吧,然后呢,也不用来学校,一点锻炼机会都没有了,所以这个时候呢,你的手是不是越来越胖啊,把小胖手动起来啊,扣个一不难吧啊。好,二中量啊,重量我记住了。有个二的啊,没听懂是吧?嗯。这个没听懂不应该呀,钟总啊。还有李总啊,吃瓜子的。嗯。孙总,吃鸭头啊,太过分了啊,好,那接下来我们聊一聊这个基差询需求,大家是不是学过一个叫。Pre对吧?嗯,那还有另外的一个框架,大家现在呢,已经在课程当中不讲了,叫P这两种呢,这两个框架都是做基查询的,那基查询呢,由于我们需求具有什么叫临时性,这两种不同啊,它呢就是当场计算。
05:14
啊,基于内存,因为我临时料的需求嘛,所以速度肯定要快,这个是基于内存。助理速度快。对吧,是这样子的,他是临时计算啊,然后Kelly对陈总说了对吧,那这个呢,是提前算好预计算。他是做A计算的,提前算好,那为什么在计息查询当中会有这么两个?会有这么两个不同的点呢,那我们思考一下啊,那由于你临时给的一个需求,那我现在就要出结果,我现在就要看结果,你说两个小时给果不行,这肯定不行,所以呢,像presal它呢,基于内存速度快,对吧,而另外一种,你比方说还有一种情况呢,我不是不知道你什么需求吗。
06:02
对吧,我也不知道你要什么需求,那KD它是怎么做的呢?我把所有的情况都给你算好,KD其实做这个什么呢?叫多维分析。多维分析的,哎,有同学看到我前两天发的一篇CSDN的帖子吗?加过我微信的同学应该知道。对吧,加过我微信的同学应该知道,我最近写了一篇帖子啊,关于这个多维分析的,在CSDN上啊,加我微信的知道,那这个地方呢,它里边有个东西在have里边啊,Have里边就有一个函数叫with cube。Q叫立方体,那我简举一个简单的例子啊,什么叫cub呢?比方说一张表,一张表呢,我们里边有sex,有这个部门DPD对吧?还有ADR。Ad啊,这个可能这张表呢,有很多种不同的维度。
07:00
啊,很多种不同的维度,OK,那接下来呢,我们可不可以根据性别算一下公司的人数,我单独的根据部门可以算吧,我根据。这个人所在的地理位置,或者说呃,被雇佣的时间,就入职时间,我都可以来算他的一个人数,按照年份对吧,月份天去统计任何的指标,那这个时候我知道你未来可能有这种临时性的需求,我怎么做呢?那三个维度啊,这边有sex,比方说sex。这个dapd ADD地址address对吧,三个维度,那你告诉我总共它有多少种组合。来说一下它总共有多少种组合,就三个维度,总共有多少种组组合。有多少种维度组合?
08:03
李总说七啊,李总说三,陈总呢说。二的三次方减一也是七。其他同学呢?没有啦,不知道是吗?就多种维度组合七啊,还有陈总说八,有说八的七的六的啊,很惊讶啊啊,那我们一起来看一下,首先是不是应该求什么总人数啊,总人数的话是不是零个维度。因为。对吧?哎,零个维度我们不要go by,它也是一种维度组合呀,对吧,我不选维度也是一种啊,说七的大概就漏了这种啊,但是这个没关系,说七的呃就很不错了,二的三次方减一对吧?好,那接下来我们按照性别部门ADDR算这个人数啊,都是算人数啊,这个我们就这样。
09:06
我们要算这个人数啊,算这个人数维度零个维度的是不是一种对吧,那还有一一个维度的,一个维度的呢,几种三种吧,对吧,分别取一个嘛,C31对不对啊,C31啊就是三种,好,那接下来还有两个维度的吧。两个维度的几种啊。是不是也是三种C32嘛,C32对吧,中间取两个啊,取两个也是三种,好,那接下来三个维度都要的。啊,三个维度都要的,那这个名也也只有一种啊,因为只有三个维度,三个维度都要的,所以实际上呢,你要一个维度组合,就是二的N次方,你有多少个维度就是二的N次方种。对吧?二的N次方种是这样的一个形式啊呃,那K类呢,它做对于计算就这样子的,我把你所有维度组合全部给你算好,那你不是说临时需求吗?我都已经算好了,你要的时候直接拿我结果都算好了,那这个呢,也能很快的给你提供结果数据,大家想一下是不是啊,所以大家注意一下,在机查询当中,它是有两种的,一种呢,是利于press这种现场给你算的,另外一种呢,其如king做预计算,给你先把所有的维度全部算好,你要用的时候直接拿结果就好了。
10:26
对吧,是这个意思,这个一定要注意一下,OK吧,这个没有问题啊,行,这是我们说的第一个啊,它的一个离线计算,实时计算,以及我们当中还有一点叫及析查询啊,叫机查询这个点啊,那么第二小节呢,比较简单的就是需实时需求的一个种类啊,那第一个像SPAS项目当中,我们做的这个报表,可能工作当中自己去写这个内容,对吧?那第二个呢,是大屏,现在在生产环境当中用的非常多了,都是用的这个大屏展示啊,那这个图左边这张图啊,也是我们未来我们要完成的一个,就是最后项目做起来,完成之后,我们看到的就是这样的一张图。
11:08
啊,我们看到的就是它好,那第三种呢,就是一井。在Spark stream当中,咱们做了一个这个购物券领券预警的一个需求,对吧?呃,那这个需求比较特殊啊,就是在公司当中,我们刚才说了之前提到一个点啊,那ADS层呢,我们不保存。对吧,ADS实时当中ADS我们不保存,那如果说到了第二天,你还要看今天的结果,注意走的是离线。而不走这个实时里边,那这个其实隐含的一个点在里边,隐含什么点呢?隐含的东西在于我们离线是不是要求离线需求跟实时需求得算相同的指标。有没有问题?是不是我们计算得计算相同的指标才能做到这个事情啊,我要看当天的数据走实时,看以往的数据走离线。
12:09
是不是我们要求离线根式时指标得相同?OK吗?看没有互动了,你看。颜值不至于这么高啊。就是大家互动的时候是不是也比较麻烦发弹幕,诶大家发弹幕的时候。是需要退出全屏吗?是要退出全民吗?是的是吗?那就比较麻烦,不需要是吗?有同学说不需要。戴伟,你又说需要,又说不需要,到底你看。这就很麻烦,对吧,你你开始说不需要,然后又说需要。所以这个时候确实比较麻烦,需要睁开眼睛啊,孙总我知道了万达啊,好,我记住了是吧。
13:01
好,那这个呢是比较清楚的,所以做实时的公司必有离线,一般来说是一定的啊,很少有公司直接上这个实时不做。啊,不做离线,嗯,很少的。嗯。好,那这是我们刚刚分析的啊,那我们刚才为什么提到这个点呢?因为预警需求啊,它比较特殊,它比较特殊预警需求它只做实时,不做离线。预警需求只做实时不做离线,大家能想明白这个问题吗?能想通吗?为什么预警需求它只做实时不做离线呢?对,离线预警来不及,离线没有意义,时效性,因为预警这个需求最讲究的是时效性,对不对,最讲时效性,那好,那A井这个需求呢,我们要不要保存呢?其实也不需要保存,那有同学说离线没有了,你还不需要保存呢,因为我们是做预警,对吧?我们不需要历史数据,这个数据一旦发生情况了,我们立马就要处理,而且处理过后这个数据意义就不大了,没有什么作用。
14:22
是不是,所以这种需求呢,也不需要啊,所以你要搞清楚这个事儿啊,就像他们说的,他更重要的是。时效性啊,对了,预警需要这个立马处理啊,没有问题啊,所以说这个需求比较特殊,但是在我们实时输仓当前这个输输仓的这个项目当中啊,是没有做预警需求的,但是如果要做预警也可以吗?像司法森当中,咱们不也做过一个预警嘛,对不对啊,是这个意思啊好,那最后一个呢,是这个实时推荐推荐系统,呃,推荐系统呢,它这个难度相对来说较高一点。因为他要求大家有这个数学基础啊,有数学基础在这个当中呢,我们也不涉及他呢,会难度很高啊,如果说你之前学数学的,或者说做其他这些等等事情的,你可以自己去看一下,我们放在这个官网上的这个视频有两套,一套这个电影的,一套这个电商的啊,你都可以去看一看。
15:16
嗯,如果说你要看的话,先看这个电影的,如果你真的想要自己学习这个啊,你先看电影的。因为在电影的推荐的这个项目当中呢,我们是讲了数学基础的。我们有讲数学基础啊,所以你要先有一定的数学基础,那就是纯数学公式的这个东西就比较麻烦,那就很麻烦,就是比方说我看一下我这地方有没有,我给大家稍微的搂一眼啊呃。这个当中我应该有这个内容吧,我我给大家稍微的去找一下。给大家看一下,如果说你要学习的话,这个东西比较麻烦啊,推荐的,诶这边有一个这个新闻推荐啊,那就是面试的时候,大家一定要知道一下,面试的时候他喜欢干什么事啊,他他要求呢,你现场首推公式,那这个公式长什么样子呢?我我给大家看一下嘛,对吧,很简单啊,这这是模型啊,这是模型最后呢,你要做的事情,呃,我找一个找一个公式啊。
16:20
比方说这个,这是一个逻辑回归的一个公式,对吧,那你在如果说你要想找算法岗工作的啊,你要现场首推这个公式。首推这个公式啊,就是说一步一步的要首推这个公式,一步一步的怎么来的,每一个参数起到什么作用,我把这个参数往高了调,或者往低了调,会发生什么现象,那这个要求还是比较高的,你看一步一步的啊,整个推导过程。啊,都要去处理出来啊,都要处理出来,这个就比较麻烦一点了,不适合所有人啊,那这个呢,你就自己去看啊,你就自己去看一下就好了,对吧。
17:01
小学数学考95分随便算,那是那如果说你要是这样的话,对吧,小学数学考95分,那轻轻松松拿下这个推荐系统好不好啊,咱们就这么聊啊,行这个呢,大家就注意一下啊,其实网上呢,在我们的鼓励学院,你们不是申请的这个鼓励学员账号嘛,可以去下载下载到啊行,这是我们的一个需求分析啊,大家呢,重要的是掌握这里面掌握一个点啊,就在于它。就在于这个啊,就在于这个。
我来说两句