00:00
好,接下来呢,我们简单了解一下这个的优缺点。就说他适合做什么事情,不适合做什么事情,这个事情你是要分析清楚的,往往在什么时候用他的,就是在你的做项目的时候,项目的。技术选型。这个很重要啊,你看。看这东西不起眼啊,其实在你开发的时候啊,尤其是项目启动之前,往往讨论的最多的就是各种你用什么技术框架去搭建这个平台。对吧,你是用豆呢还是用呢。你是用那个Java呢,还是用呢,还是用P的。等等,这些技术选型都有它的道理。你要让这些框架做他最擅长的东西呢?我们来看一下它的优点。优点呢是易于编程,非常容易编程。它简单的实现一些接口,就可以完成一些分布。
01:04
操作非常简单,后面你会发现它就三个类。特别固定。啊,而且里面的这个代码呢,几乎都是清一色的头。就可以搞定。那这个分布式程序的。可以分布到大量的廉价的PC计算机型。比如说像这个会超这种电脑。电脑。那这个电脑上都能运行。也就是说呢,你写一个方式程序跟写一个简单的查询代码是一模一样的。啊,跟你们以前这个单节点单机信息写代码一模一样,其他底层那些并行化的这个操作,分布式操作全部由这个外框架给你完成了。所以说,就是因为这个特点,使八六式编程变得非常流行。你根本就不用考虑这些事情。什么多台电脑之间如何通讯,如何这个干活的啊,如何存储数据啊。
02:04
通过读取数据等等都没有关系。OK,那良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器就可以实现,这个相当于是不是软件方面的,是硬件方面的。动态的增加这个集群。OK,这是两个优点,那下边还有两个。第三个优点呢,是高容错性。漫种调设计的初衷就是程序能够部署在廉价PT上。这就要求它具有很高的。那比如说会这台电脑挂。它可以把上面的计算任务转移到另一个节点运行。可以转。到谁的?转移到这个梦迪是吧。这个数据呢,不至于丢失,任务呢,仍然可以正常运行。
03:01
而且这个过程更难得,所谓的什么呢?不需要你人为的操作。这都完成。你看我们退役那个节点的时候。说推完他自动把它那个数据复制到。另一台机上。这个特点很重要,它适合的是PB级以上海量数据的。离线。千万别整偏了啊,你说啊,你整几个这个小文件啊,1K2K的啊,甚至你认为比较大的一个G啊。这不是他擅长的啊啊。还有同学还整一个空文件上。那根本就不算擅长的事儿啊,所以说这些小件的处理事,他根本不擅长。另一个呢,它是离线处理。十的是吧,像那个双11大屏幕那个淘宝双,呃,还有那个天猫那。不是那个框架能做的,但我们后面有其他框架啊。啊。
04:01
OK,可以实现上千台服务器集群并发供货啊。控这个数据处理能力。几千台都没有问题。这是它的优点,那下面呢,我们来看一看他不擅长做什么。确定。不擅长。知识传。想都别想。这种呢,他上不来。无法像买Q那样在毫秒或者秒级内返回结果。预算速度很慢。或者带你们跑一个外部的程序。另一个呢,是不擅长这种流式计算。呃,流式计算的输入数据是动态的,而外分之六十输入的数据是。不擅长那种,就刚才。不能动态变化,这是因为就是自身设计的特点决定。他擅长什么呢?哎,我统计你你。
05:00
天的数据是我。或者越活。一个月的数据。一年的数据。轻松拿过来之后准备好,然后开始运行。啊,你要说这个来一个数据,立刻将他处理那。SPA10厘米。另一个呢,是不擅长这种dag有向图的一个计算。价有相同的。一个依赖一个。多方研究程序存在这种依赖关系。后一个应用程序的输入呢,是前一个的输出。这个程序的输出是这个程序的输出。然后它的它的输出呢,就是下一个程序的输入。这种关系。是有方向的,在这种情况下迈肯定是并不是不能做啊。会能做的啊,包括我们。刘翔的案例。但是什么呢?只是他不擅长而已,为什么呢?每个脉镜作业的输出结果都会写入到磁盘,你这个写到磁盘这个腰椎盘,那就会造成大量的。
06:11
吃饭也不很忙。导致的这个性能呢非常低下。不是不能做,只是不擅长而已,这是这几个缺点。
我来说两句