00:00
好,接着往下走,我们看一下它的一个优缺点啊,这块大家这块的内容呢,大家需要去稍微的刻意的去记一下,然后在学习过程当中呢,不断的回想这些内容,慢慢的等这个方案学完之后,你也就掌握了这个优缺点,因为这个优缺点的东西啊,嗯,具体的也没有什么太多可展开可说的,那我们就一块看一下,首先它的优点啊,他说操作接口类似语法。我们一直强调的它就是类似考啊,但是现在大家还不知道,因为还没用过吗?没用过简单容易上手,就是跟还有这个框架一样,就是为了给后台人员进入大数据领域啊,提供的方便,提供的方便它简单容易上手,你看避免了去写MR啊,减少了开发人员的学习成本啊,学习一个hard子还是要挺长时间的,特别要想把哈果吃透的话。还是挺长时间的,然后他这个执行延迟比较高,执行延迟比较高,因为它是走的MR的是吧,MR的一个延迟性比较高,所以have呢,它的体系延迟性比较高,这肯定是好理解的,理解的,然后它是对实时性要求不高的一个场合适用的,他一般就是用在离线的业务当中啊,离线分析就是你要计算每个月啊,或者每年的一个总的数据的时候,那这个时候你就可以用这种have或者MR来做。
01:34
慢慢来做,你在晚上是吧,凌晨两点或者零点的时候启动一个定时的脚本啊,去跑一下这个任务,分析出来数据,他不是说实时性要求特别高的场合,就是来一条数据之后立马处理,但是可以处理的,但是他对于前面的一个交流特别慢。反馈他出结果的一个速度很慢,因为他跑到MRMR整个的一个启动就很慢嘛,整个提交啊,什么切片啊等等这些内容非常的繁杂,所以它应用的场景一般是离线离线。
02:08
啊,它的优势在于处理大数据,小数据没有优势,没有优势那就在于刚才我们所说的MR的整个的启动时间太长了,你处理了一个数据三秒钟处理完了,你启动启动五秒,那肯定是不适合这种小数据的处理嘛,所以说你不能杀机用牛刀是吧,你小数据就是小数据,你用MY就就够了,就用MYSQL,你不要用have,不要用have,然后他还有个自定支持用户自定义函数,你可以自己扩展你这个需求当中。我们到时候会给大家看到它有很多的一个函数,还有里面提供了很多的函数,就类似于some看的这种,这不是函数嘛,对吧,它有很多这种分析函数,但是呢,有时候你的业务。就是它提供的函数呢,不够用,哎,他还提供了一个接口,或者说你继承它那那里边的一个类。
03:07
自己去写一个函数,然后封装进去,然后可以用它的一个扩展性是非常好的啊,这是它的一个相对来说的一个优点。接下来是它的一个缺点,表达能力有限,体现在两个方面,第一个迭代式计算。没办法表达什么叫迭代式计算?迭代式计算什么意思?就是你拿一个原始数据产生的第一次计算的结果,然后在这个结果上继续计算吧。是这个意思吧,哎,迭代计算。Have,他说还他说无法表达这种语句其实就是想表达什么意思。你想想个本质,Have的本质,你学have的时候一定不能忘了哈多宝,你想想看,我们当时如果讲哈多堡,就讲六的时候,遇到这种需求怎么处理。
04:04
多个MR串联吧,多个串联,那你多个MR串联的时候,你这个口他就很难做到。哎,这种的一个计算,所以说他做这种事是很有限的啊,他其实就是想表达的就是MR不适合做这床对吧,不适合做征生,因为它本质还是mmr了,所以说你学的是have,但是你一定要深深想起来,你跑任务的跑的是MMRMMR有什么局限性,那汉肯定有什么局限性啊,然后第二个数据挖掘方面不太上涨,数据挖掘它涉及到一个更深层次的算法。就是咱们写的那些函数或者自立的函数啊,它可能达不到那些要求,因为这些数据挖掘更多的还是涉及到迭代式计算啊,机器学习之类的,这种迭代式计算运用的比较多啊,应用的比较多,更重要的侧重的它是数据分析吧,从原有的数据上来分析出来。
05:07
新增用户啊,什么用户总量啊,然后活跃用户啊,啊等等这些,这个叫数据分析,这不是叫数据挖掘,数据挖掘是什么?就类似于你们当时讲了一个什么,那个啤酒加布是吧,还有印象吗?对吧,啤酒单交动这个单独的,你如果说拿数据分析是很难找到它们之间的关系比较难的,因为你自己就是你凭你自己的脑袋去想,你不会想着把这两个数据放在一块,它都比较了,就人他想不到,但是你如果做这种迭代式计算,或者说数据挖掘方面,他有算法,他自己能发现他们俩之间的关系。啊,这是数据分析和数据挖掘之间的不同点,那数据分数据挖掘呢,它层次更高一点,但是它对于数学啊,或者其他的一个要求就更多一点了,但是就是以后你们出去工作了,还是尽量的能往数据挖掘或者说算法方向走,那更好,肯定会走的更远一点啊,走的更远一点,你光做数据分析,其实这个活干长了时时间之后没有太多的意思,说实话啊,处理数据的话,就是大家有时间的时候学学习,有精力的时候看一看那个网,网易公开课上不是有那个什么数学啊之类的那种课堂嘛,我觉得那个那个。
06:31
是有斯坦福那个老教授是吧,讲的挺好的,因为他们他们那个视频也是课堂上实录的,他们底下也是就是现场收过的那种实录的视频,就是有时间去看一看什么又又回到那个感觉,就考研一样是吧,什么线性代数啊,什么高数啊,什么概率论啊,特别是现代啊,现代里面还是就是算法里面用的还挺多的,因为它有矩阵是吧,矩阵啊后面的它那个数据怎么表达的,在计算机世界里面,他都会抽象这种各种矩阵,各种矩阵,所以大家如果有兴趣往这方面走的,平时还是多留一些这些东西,可以多关注关注公众号啊,什么机器学习之类的这些东西啊,因为这些东西还是就算你以后不走,你可以感感兴趣,对吧,可以了解了解,因为他本身确实挺有意思的这些东西啊,这是我们所讲的这个汉武当中,他所不擅长的一个点,不擅长的点。
07:32
然后它还有效率低,效率低啊,这个问题就还是mmr吧,你看它的一个从无论是优点还是缺点,都跟mmr离不开关系吧,因为它本质,所以说你学东西一定要抓住本质,抓住本质OK。
我来说两句