00:00
啊,那这个所谓的项目经验值这个基准测试呢,其实指的就是去测试咱们这个海杜op的一些相关性能啊,就是你那个集群搭完之后啊,对不对,它的性能到底怎么样啊,我们需要通过它这个东西去测一下,然后看一看到底能不能满足咱们的要求啊,是这样的,能不能达到一个平均的水平啊好,那咱们这个海度的基准测试里边呢,包含这样的三个内容,一个是测试HDFS的写性能啊,一个是测试HDFS的读性能,也就是HDFS的读写测试,然后再有一个呢,是hi doop当中my produ的这个性能。啊,那其实这也就相当于什么呢?相当于是我们测了三个方向,一个是读,一个是写,还有一个是它的计算能力,对吧?啊计算能力啊,那这个所谓的基准测试呢,这个呃,我们是有相关的工具的,这个工具海度已经给我们封装好了,已经提供好了,咱们直接用它提供的工具去测一下就可以了啊,然后看一看啊,它这里边。
01:01
先看第一个吧,就是这个所谓的呃,测试它的血性的啊,那血性能测试内容呢,就是我们往HDFS上写数据,然后看一看你的吞吐量能达到多少,就是你的写的速度,比如说这多少兆每秒啊,是这样的啊,然后来咱们看一下啊。这个测试的时候,我们要执行的一个命令是什么?看一看能不能看懂啊,对吧,还做个这诶一看是不是也是要提提交一个MR任务啊,对不对,那后边我们指向了一个炸包啊,那这个炸包呢,就是呃海度啊,它自己给我们提供好的专门用来做基准测试的这样的一个炸包,它里边就封装了各种各样的这个呃测试呃任务啊好,那后边我们需要给它传参,第一个参数是什么test啊,DFSIO啊,这相当于什么呀,是测试我们HCFS的这个读写对吧?IO,然后边咱们杠right,杠right就是我要测的是写性能,完了后边呢,有一个杠N啊,这个falses啊,就是写多少个文件啊,写十个文件,然后呢,每个文件的大小啊,128兆。
02:05
啊,是这样的啊,这是几个参数啊,然后给大家解释一下啊,就是咱们这个读写测试的时候呢,它的这个底层原理是什么啊,比如说咱们以写为例啊,以血为例,以血为例,那其实它底层就会启动一个map producedu啊,它底层就会启动一个map producedu啊,然后启动这个map producedu,它启它这个map producedu是什么样的呢?实际上是这样的啊,它会有若干个map。啊,然后后边呢,会有一个reduced。啊,然后这个若干个若干个map分别,哎,指的是什么呢?或者说它会起几个map呢?由谁来决定,实际上是由咱们这个诶文件的个数来定的。啊,比如说我这十个文件,那它就会起几个map呢?会起十个map。啊,就会写十个map,每个map负责写一个文件啊,每个map负责写一个文件,一个map一个,一个map一个啊,而大家要注意,每个map写多大呢?就写这么大。
03:00
啊,这是咱们的map,那reduce呢?Reduce干什么用的呀,Reduce是用来收集我每一个map的那个写的结果的,对不对,我这个map我写了多长时间,这个map写了多长时间,这个map写了多长时间,然后呢,它会把这个结果汇聚起来,最终给我们生成一个统计的结果,啊这是它的这个底层的一个原理啊,咱们这个了解一下就行了啊行,搭完之后呢,我们现在去开始测一下这个HDFS这个血性能,哎,咱们搭完了,哎,把这个粘出来,咱们做一把测试CTRLC。来,我们打开一个新的文件啊。好CTRLV啊,那咱们要真的去做一个测试的话呢,那我们这里边其实考虑两个东西啊,一个是诶我写几个文件。还有一个呢,我的文件大小应该是多少对不对,这是咱们要考虑问题,那先说这个文件大小啊,那文件呢,大家说是小一点好还是大一点好啊。显然是大一点好,为什么大一点好,如果太小,你这个误差就比较大,对不对,那肯定文件越大对不对,我这个持续的时间越长,我是不是能够消除掉一些那种呃误差呀,对不对,就是文件肯定是大一点比较好啊,那比如说我真正的去测,我可以给它设成1280,哎哎,可以做成这么大啊,是这样的啊,所以这个大家知道就行了,咱们这儿呢,写小一点吧,128张啊,然后接下来咱们再来说这个文件的个数。
04:27
啊,再说文件的个数,但是文件的个数我应该设成多少个比较合适呢?这文档就给了一个十对吧?那设成几个是比较合适的呀,设成几个比较合适,那是不是很显然得跟咱们集群的规模有关系啊,对不对,我集群规模越大,那我这个个数相应对肯定要越大啊,集规模越小,那个数相对肯定要去越小啊,为什么这么去理解啊?呃,咱们这个所谓的基准测试,那我们最终肯定是想要得到什么呀,想要得到咱们整个集群的一个吞吐量,对吧?我整个集群啊,我每秒钟我能写多少文件啊,对不对啊,我我每秒钟我能写多少张,每秒钟我能写多能读多少张,肯定是整个集群的,那既然要是整个集群,那你在测试的时候,那是不是就正常情况应该怎么办?应该把咱们整个集群都使用起来,都调度起来呀,对不对,那怎么样能够把咱们集群都调动起来,也就是怎样能发挥它最大的这个写写能力呢。
05:29
啊,怎么样了?那是不是就是M跑满就行了呀,对不对,因为大家都知道我一个文件是不是会起一个map呀,对不对,一个文件起map,那我把整个MR它的所有的那个map克跑满,对吧?比如说我现在一个集群我同时能跑100个map,那我这儿就给它设成多少就行了呀,啊设成100个啊,那我现在于是所有的map克都起来了,那这时候我100个map克同时往咱们集群里边去写数据,相当于是对不对,那这时候我相当于就能得到咱们这个集群最大的一个吞吐量了,啊是这样的啊,那关键是问题来了,咱们一个集群同时能跑多少个map?
06:07
这里由什么来决定的呀,由什么决定啊,其实主要由咱们的资源决定,对不由你的内存以及你的这个核数来决定CPU核数对不对啊,因为大家都知道,我一个map是不是给你分配一个container对不对,那一个container当中会有呃若干的内存还有什么呀,还有啊,这个一个这个CPU的核对吧?啊,CPU核这是一个container对不对,那我有多少核,我是不是正常啊,就不考虑内存的情况下啊,因为咱们这个任务其实用不了多大内存,我就是写一个写一个数据对不对,我也不会来计算啊,所以说呃,内存咱这可以不考虑,主要考虑CPU,那我CPU有多少核,那我就能够跑哎,多少个map啊,那CPU1共有多少核,去哪看呢?可以往哪看呢?是不是可以去咱们的海路啊,103上边,诶8088,这是不是咱们雅安的一个这个集群的监控界面啊,对不对,那第一个栏目就是这个collector mettrix,这是就是咱们集群的一些这个相关的参数啊,对不对,那左边这有什么apps of met的,就是提交了多少应用,这个不看咱们看后边。
07:13
来看这儿,这儿呢有一个memory total,就是整个集群一共有多少内存,12个G,这12个G怎么来的呀?尸体怎么来的?三四十二对不对啊,那这个四三是三台节点,那四是从哪个参数来的呀,当时咱们是不是在亚赛当中配了一个什么node manager,那个什么这个卡拉那个呃呃那个呃,就是那个node manager能够给集群提供的这个内存的这个大小,对吧,咱们每个noe里面都提供多少,都是4096,那所以说12G内存呗,这个没没没问题,大家来看这个核数,哎,V course。啊,这和是24对不对,这个24怎么来的呀。二四怎么来的,嗯,实际上是这样啊,这个何处呢?其实我们在实际的生产下呢,咱们也需要去这个进行配置啊,也要配置啊,那这个怎么配啊,这个怎么配,你是不是得去看一下咱们的,呃,这个什么上面啊,得看一下咱们那个,呃呃亚塞的对不对,咱们找到塞。
08:18
啊颜色啊,那关于合数的配置,咱们怎么配呢?应该这么去配啊,那我们现在呢,找到跟合数相关的应该叫做v course啊course啊,那我们就来我们搜一下啊,哎,这个不是啊,这个不是,哎,这个是。哎,咱们来看一下这个。看这个。雅安点note manager点,然后resource.cpu vehicle啊,这是CPU核数对不对?这相当于什么?这相当于是一个note manager最多来提供多少个CPU的核,交给亚去调度对不对啊,那它是写了多少了?写成负一了,那写成负一指的是什么呢?往后看自己去,这个后边有介绍,咱们自己看一下啊,来看一下这个指的是number of vehicle that can be KD for contains,就是说note manager能够,哎,被分配给room contain的那个合数有多少,这是对它的解释,对吧?哎,咱们用管,然后咱们看下边啊,咱主要看这个负一指的是什么啊,往下边啊,如果这个被设成负一了啊,然后并且并且什么并且这个参数。
09:25
诶设成处对不对,然后它就会怎么样,它就会automatically,就是什么意思,就是自动的自动的determine,自动的去决定啊,从哪决定,从我们这个系统的硬件去决定啊也是什么意思,如果说这个参数设成负一,然后这个参数设成处,那它就会自己去根据你的硬件去设置这个参数,对吧,比如说我的硬件咱们是20盒的这个,呃,物理CPU,然后这个40线程啊对不对,那它就会设成多少啊。40啊是40,它其实只是那个现成数啊,现整数,咱们一个盒当俩盒用啊,是40啊是40啊,也就是他会根据硬件自己去决定啊,否则的话呢,In other case就是否则对不对,否则是什么。
10:11
Number of vehicle is8by default啊就是默认是八,就是一台是八对不对,实际上咱们这个二二十四怎么来的呀,啊,其实就应那它怎么来的,那你得看什么呀,是不是得看一下这个参数是不是true啊对不对,如果这是true,那相当他自己根据硬件来的对不对,如果是false,那就说明就是默认值呗,那咱们看一下这个参数的默认值是多少,CTRLF搜一下。哎,回车走,哎是多少啊,是false,也就是实际上这个24啊,这根跟哪来的,根据默认值来的三到24啊,那也就是在升长,咱们这个是不是得记得调一下呀,对不对,如果说你要想自己给他指定,那你就直接把那个参数改了,它默认是负一对吧,比如说我我20个20和40线程对不对,我比如说我想给他用30个,那你生成30。
11:00
啊,那如果说你想让他自己决定,那那就给他把那个参数使成true,是不是就自己决定了呀?啊是这样大家得知道这个东西啊,那咱们这儿呢,就是按照默认值来啊,那行,那假如说咱们这儿就是真实的啊,真实的假如我就是有24个盒对不对,那你说24个盒,那我那个任务呢,一个盒,我我一个container,我一个map,我获取一个核对不,那咱们最多能跑多少个呀,24个对不对?正常是最多24个,但其实我们呃正常也就是咱们这这个map这个文件的个数是不是就设置24啊对,但其实咱们还真不能设成24。为什么啊,大家想一想,我一个map reduce啊,啊,我是只有map和reduce会占用contain吗?不是还得有谁呀?还得application master呢,对,是咱们任何一个mmr任务是不是都得有一个application master啊,就是他是不是也要占用一个container啊,对不对?所以说咱再考虑的它实际上我这一个集群同时能考的map部的个数时间应该是多少啊,要是咱们那个核数还得再减个一对吧,减一也就是咱这时间应该如果是24个核应该是几啊。
12:04
应该是23啊,是23才对啊,这个大家得记住,那家得记住好了,但是我现在实际上这个核啊,它它不是真的啊,它不是真的,那我这个真的应该是一共有几个核啊。啊一一共有几个得看咱们的虚拟机对吧,那我虚拟机我给了几个卡啊来看一下,咱们点点开,然后右键可以点一下那个设置吧,对吧,看我给了几个。哎,我给的是啊八个,我现在因为什么?因为我现在这个我自己电脑,我这个笔记本我是四核,然后这个八线程啊,也就是实际上这个逻辑处理器,它的总核数应该是多少,应该是八个对吧?啊,应该是八个,那所以说我这儿调我就跟我Windows调一样了,那就是我三台机器现在是不是实际上也应该是几个孩,也应该是24对吧?啊,但实际上这24是真的24嘛,不是啊,也就是实际上我这个真正的到底应该有几个呀,到底其实就八个啊,就八个,那所以说我让他正常调,我应该调成几呀,我要调成调成七是不是就行了呀,啊调成七就行了啊也是咱们这儿是因为虚拟机的环境吧,要是真实的环境这个就省事了,那那个是真的是多少,你就给他减个一就行啊,那我这个就按照这个来好,那咱们调成这个,调这个之后呢,相当于我就能够去进行测试了,那咱们拿回来直接回车啊,然后看一下那个测试的结果。
13:24
嗯。我这我这个目前这个集群啊,就最多,呃,实际上现在就是只能同时跑啊几个呀,同时跑七个卖啊。你看我现在CPU已经干到。100%的对不对啊,干到100%说明什么?说明我CPU是不是这个八个核都开始运作了呀,说是不是在并行跑咱们这个任务啊,这个得搞清楚。啊行,那跑完了,呃跑完之后呢,那咱们现在呢,相当于是得到了一个呃这样的一个结果,呃,这个第一次测试呢,这个结果呢,稍微的有点不太准确啊,不太准确,呃如果正常情况下呀,咱们这个值和这个值应该是差不太多的,如果说按照我刚才说的啊,就是把它调成合数减一啊,这个值这俩值应该差不多才对啊,这个可能还是刚开始不太稳定,那咱们重新再测一下啊呃,还有一个原因呢,可能是什么呀,我这个呃呃单个文件太小了,对吧?啊所以说呃,误差比较大,咱们把它调大一点试一下啊,然后咱们重新测一下。
14:23
嗯。啊,这个时间可能就稍长一点了,因为文件比较大了啊。啊,咱们这个一会儿他实际上测试是在往am上写数据对吧?嗯,那一会儿咱们还可以给他清理一下啊,可以把那个文件清掉。嗯。CPU100%了。就是咱们这个呃,测的时间越长,误差呢,相对来说要越小一些啊啊咱们再测一下。然后一会出来之后再给大家解释里边的这个结果是什么样的啊,一会儿来解释。啊,这个虚拟机跟那个真实的服务器还是有区别的啊。
15:03
嗯。你们稍微等一下,看一下这个最终结果,时间有点长了啊。嗯,还是还是因为是虚拟机啊,还是虚拟机虚拟机,因为呃,咱们不光是我这个虚拟机要用CPU,我整个我的Windows系统是不是也要用CPU啊对,所以这个CPU还是会有这个,还是会有抢占这种切换的这种这种呃现象发生的,如果真实的集群,那你的CPU当时那一个CPU就在跑这一个卖法,它不会切换,诶所以咱们这儿测呢,还是有一定的误差的啊行,那接下来给大家说一下这个我们最终这个结果是什么样的啊。咱们得到这样的一些结果来,首先看签名,这你测的什么right,然后这儿呢,你写了几个文件,七个文件对吧,那下面呢,这是一共写了多少,写了808960啊六零,然后下边看这下这俩东西啊。
16:06
一个叫做through put,然后单位的是赵美秒,一个叫做iri IO,然后呢是哎兆每秒啊,赵美秒啊,然后这个这几个东西分别这俩值分别是什么,给大家解释一下啊,上边这个呢。注意上面这个它是用来去衡量什么呀,衡量咱们这个,呃,每个节点啊,这个值呢,可以用来衡量咱们每个节点的这个吞吐量啊,平均的一个吞吐量,每个节点平均的一个吞吐量啊,就是咱们应该是一个集群多个节点对吧?哎,每个节点一个平均的存储量,然后下面这个呢。啊,实际上呢是去呃,它求的是一个平均值啊,求的一个平值average嘛,什么平均值呢?求的是每个文件,因为咱们是不是写的多个文件呀,它求的是每个文件的这个写速率的一个平均值啊,每个文件的那上面的相当是呃单个啊节点诶或者是单个map啊,单个map啊,那接下来给大家说一下这俩底层到底是怎么算的啊,其实很简单,那这个算法那是怎么算的啊,它是这么算的,咱们是不是一共写了七个文件呀,他会把七个文件的总大小啊给你加在一起。
17:19
啊,总大加在一起,然后呢,去除以一个值什么值,去除以一个,每个文件它那个写时间的一个总和,比如第一个文件写了多长时间放在这儿,第二个文件写了多长时间放在这儿加一起。下去,然后得到的值就是这个。啊,这个是不是能够大致反映出来,咱们哎一个单个节点,我这个呃,写的这个吞吐量啊,实际上一个平均值相当于是啊,那下边这个是怎么算的呢?下边这个是怎么算的啊OK,我先拿到一个文件的大小,拿到该文件的一个写时间啊然后呢,再他俩相比,然后再拿到第二个文件的大小,然后呢,再拿第二个文件的时间,然后呢,以此类推,加一起,最终再干什么呀,最终再把这个东西作为一个分子,然后呢,再让它去除以一个诶文件的个数啊那这个相当于得到是什么?是每个文件它这个写速度的一个平均值,对吧?啊是这样的啊,那其实那如果说我们这个,咱们是不是一共起了七个map呀,对不对,如果说七个map啊,我们是并行同时跑的啊,而且每个map呃,我这个这个性能都是相同的啊,如果真实的一个一个一个服务器一个集群,那我每个map应该它性能是差不多的啊,也就是你同样的大小那。
18:36
写完之后所耗费的时间是不是应该也是大致相同的呀,对不对,那所以说你说这两种算法,他们最终得到的结果是不是应该是很接近的呀,对不对,应该是很接近的啊,但因为咱们这是虚拟的环境,因为我这个CPU呢,呃,除了虚拟就用,我Windows也在用,所以可能涉及到CPU的切换什么的,所以说这里边呢,呃,那咱们这个结果可能就不是那么准确,那这俩值的差的相对来说就多一点,但其实正常应该是相差不大的,相差不大的啊。
19:04
好,那这俩东西呃,怎么算的,它能反映什么,我们大致呃就能搞定了啊,完了之后下边还有俩值啊,一个值是什么,这个IO rate啊,Std,然后division这什么呀,这是。这相当是一个标准差啊,Standard的呃位这是一个标准差,谁的标准差呢?因为这求的是一个平均值对吧?求的平均值,那这个它能够反应什么呢?标准差是不是能够反映出来你这个求平均值的那几个值之间的一个相当于一个波动啊对不对,如果这几个值我相差的越小,那标准差就越越什么呀,越小啊,那相差的越大,那你这个标准差它就相对越大。啊,那还是那个道理,如果说你这多个map,哎,我这个性能差的不多的情况下,那标准差应该是比较小的,对吧?啊,应该是比较小的,如果差的比较多啊,那你的标准量就大啊是这样一个作用,然后下边呢,还有一个,呃,测试的一个总时间,就是你写这点文件,从提交任务到最终完事,这个任务一共跑多长时间啊,这个其实倒无所谓啊,行,咱们大致了解这个参数了,然后我现在问大家一下,那我们现在这个集群的平均的一个吞吐量。
20:10
哎,应该是多少呢,总的吞吐量。整个集群的,那你刚才求的,呃,这俩值是不是都是相当于平均值啊,对不对,那总的吞吐量应该是什么呢。应该是什么样?是不是应该是用它们去乘个七啊对不对,用他们去乘个七啊,也就是说我单个了啊去乘以哎咱们这个呃,什么东西啊啊去乘以咱们这个,呃整个啊,这个集群能够跑的最多的这个个数对不对,那你得的就是总的吞吐量啊,就总吞吐量啊,是这样的啊好,那这就是咱们这个所谓的基准测试。好好,那咱们这个基准测试啊,这个就是这个,比如说啊,我这个写。然后这个写啊,咱们以它为例啊,那你说我整个集群,我的吞吐量,总的吞吐量能达到多大呢。
21:00
总的重量能达到多大呢?这个主要跟什么有关系啊,你说我们这个血最多跟主要跟什么有关系啊。一个是网络。对不对啊,一个是磁盘啊,那网络为什么网络会影响呢,再想想。为什么写的都是跟网络有关系,为啥?因为什么?因为正常情况下,咱们是不是在HTS上,我们每个文件都有多个副本啊,对不对,因为你写的时候没有往那写,我需要干什么,我什么才算写完了,我是不是得同步啊,那同步的话是不是得需要从咱们需要这个跨节点传输数据啊,对不对,那这个相当于是会哎涉及到这个网络的啊,那在我们一个大数据集群,我这个网络一般都是什么网呢?对,都是千兆网是内网,都是千兆网啊,都是千兆网,那千兆网,那我这这个写的速度大致能达到多少啊。100兆啊,对不对,千兆网了,千兆网能达到100兆啊,100兆,那所以说实际上如果咱们这个网络要是能够打满的话,那这边实际上这个能够达将近达到100兆,能够将近达到100兆啊,啊那再考虑磁盘呢,那磁盘我就是普通的机械硬盘,那我写速率是不是也远超100兆啊,对不对,也超过100兆,那所以说基本上咱们写的时候啊,咱们这个速度的瓶颈应该是谁呀?应该是网络啊,应是网络也是咱们这儿的基本上能达到100啊,要是真是千兆网的话啊,当然是你测试的时候不能有其他的干扰啊,你就是现在机群空着只在做测试啊,所以说这时候呃,正常型拿到100兆这样啊,那咱们现在虚拟机呢,这个没没有办法去衡量这个东西啊,好是这样的,好,那这是咱们的这个读的读写的测试,那接下来呢,我们再来看一个这个读的测试。
22:46
来CTRLC,那读的测试跟写的测试呢,应该他俩是,呃,没有啥太大的区别,还是这个炸包,只不过这回呢,我变成了读了啊,那读几个文件呢?那你刚才写了几个,是不是就读几个呀,对不对,那这个文件大小跟刚才诶咱们可以保持一致,也可以比刚才的小啊,都可以,那比如说我这来一个大啊CTRLC咱们去做一个测试。
23:07
来我们走啊,这个一会测完之后呢,它也会出现一个这样的结果,也会出现一个结果啊,那这个结果呢,咱们就先不等着它了,咱们来看这啊,看这这是读,那读的结果刚才一样,也是会有一个什么词入put,也是会有一个这个呃,I l read l read,那这个算法呢,跟刚才也是一样的,只不过刚才是写的速度,这这回是啥呀,就是读的了啊,还是一样的道理啊,如果说咱们每个map,哎,我这个呃之间的这个性能相差不大的话呢,那这两边这俩值是不是应该是比较接近的呀,也是比较接近的,然后呢,再一个那方差呢,也是应该是比较小才对啊,也比较小才对啊好,那接下来还是说一下咱们这个整个集群这个毒的吞吐量应该是什么。啊,用整个机子怎么算,是不是还是用它去乘以你那个文件的个数啊,是会去乘以那个合数啊,乘以合数啊,这么来得到你那个集群整的一个读的吞吐量啊好,那接下来咱们说一下这个读我读的吞吐量大家说应该主要受什么的影响了,这次。
24:11
啊读。那读的时候大家想想我需要去考虑什么东西吗?我需要去考虑咱们这个副本的这个因素吗?不需要了吧,因为我写我要往多个副本写对吧,但是我读的话呢,是不是只读一个副本就行了,对不对,那所以它这个结果呢,相当于跟咱们这个内网关系就不大了,这块主要考虑到什么呀,其实啊,根据它这个测试来看,主要主是不是主要影响就是磁盘了呀,对不对,主要就是磁盘了啊是这样的,所以这个读呢,一般情况下咱们要比那个写的速度要高很多,对不对,你看这是不是要比刚才咱们那个呃写的要高啊对不对,好,这就是咱们这边呃给大家演示这个读写测试啊,就是咱们得知道啊,我们这个读和写,那咱们这个性能的瓶颈是什么啊,一般来说写的这个瓶颈呢,就是咱们这个网络了啊,那读呢,一般情况下就是咱们这个,呃,像是咱们这个磁盘啊,磁盘啊好,那所以说一般情况下读要比写那个速度要更大一些。
25:12
啊啊,那下来咱们相当于就完成了读写测试了,那最终这有一个小脚本,咱们可以使用它呢,去把咱们这个任务给它清,清理一下,把刚才写上去的文件给它清掉,让自己清就行了,咱们就不甭管了,好那就还有最后一个啊,最后一个是测什么是测咱们这个计算能力对吧?测一计算能力,那计算能力它是怎么测的啊,它有四步,首先第一步。先使用一个命令呢,去生成大量的这个随机数啊,大量的随机数啊,完了之后呢,去执行一个哎,排序的MR啊,也是他提供好的,去对那个随机数进行排序啊在最后呢啊还有一步就是验证一下你这个数据呢,它是否这个啊真正的排好序了啊是这样的啊这样的呃,然后呢,这个先给大家打预防针,这个大家自己就别做了。
26:01
啊,自己别做了啊,你看一下啊,它是怎么每个节点运行十个map,每个map产生大位一个G大小的二进制这个随机数,那也就是咱们这儿会产生大量的数据对不对啊,非常多,而且咱们这只是一个虚拟机的环境啊,你跑这么多的数据量跑不起来啊,这个我还真测过啊,就是在咱们现在一个虚拟机里边跑,就这个任务跑一个小时,当时没跑完啊,一个小时没跑完啊,最后把它给KO掉了啊,大家自己就不要去跑了啊,省得把自己这个集群干崩了啊,然后我就给大家说一下,就是这个任务如果在一个真实的生长环境下的集群下去跑,那多长时间能跑完啊,就是这个任务之前是在一个,呃,应该是有,我记得应该是十台节点差不多啊,然后呢,那个呃,每个每个节点的配置呢,就跟我们的一个,呃,就前面咱们讲的那个128G啊,然后呢,20和40现成的CPU啊,就那样在这样一个集群上去跑,最终跑完之后这个任务,哎,花了一分多钟的时间啊,一分钟。
27:02
时间啊,那所以说呃,就是大家大致有这样的一个呃概念就行,就是这样的任务呢,我在一个真实的集群上去跑啊,差不多一分钟啊,一分钟啊就能跑完啊是这样的,所以说呃自己就别测了,咱们知道他多长时间能跑完,他大致自己心里有个数就行啊,一分钟啊行,那这就是咱们呃这个关于这个计算能力的一个测试啊,咱就说完了啊好,那接下来我们把视频录一下啊。
我来说两句