00:00
好,看一下这个脉搏效应,其实我们已经测过了,是不是啊。之前我们把这个属性再开。或者关的情况下都测了一遍大表这一小表是吧,大表这一小表来看一下这个属性值,我我是不是已经关掉了哦,他是开的是吧?呃,刚才我们这个是重新连接的是吧。重新连接的,你新开一个窗口的时候,之前设置的属性哎,它就失效了,它默认就是开的,那我们就开的,接下来设置一个值来举例,让他认为多少是个小表,哎,由这个属性值来决定的,看到C。看它默认的。默认的这是25兆是吗?15兆,15兆,他认为小于25兆的是小表,小表。这样当然你要是数据量很大啊,稍微比这个大一些,你可以往上微调一点嘛,你不能调太高吧,你调的你这个调的高度应该看你集群的一个什么性能来决定吧,你看你集群内存到底能缓存多少的一个数据量。
01:16
你缓存多少数据量啊,是这个来决定的啊,所以说一定要结合实际生产的一个情况来调它的一个参数,调到一个参数,那脉搏交易这一块的具体的一个内容。工作了,流程就知道了吧。来看一下吧。其实就是开,还熟吗?缓存吧,你自己写吗?是不是也是缓存到一个。分区里边ma交应里边啊,就分布式缓存里边,其实它是一样的,那因为它have也是用的MR的一个框架呀,那你之前自己手写MR是这样操作的,那have它生成的一个模板,它肯定也是这样操作的,就是把一个小表来放进去而已,加载到。
02:05
不同的缓存里面去,然后这个开,是不是每一个map都能够获取到它里面的一个内容啊,加到这里边以。你不是很可能起多个卖任务吗?你每一个卖网都可以拿到这里面的内容吗?这是肯定的,卖搏都能拿到,然后你这个卖做什么事,读那个大表的数据吧,读大表的数据,然后小表的数据全量的都在这里边,都在缓存里边,然后你可以做交易,在ma端进行交易,而不是放到reduce端,容易产生数据倾斜,容易产生数据倾斜它这一个整个的一个过程,就是跟我们自己去手写那个。Map交易那个案例是一模一样的啊,一模一样的啊,最终它是将这个缓存的数据啊发送给每一个map啊,每一个map,你看每一个map都能获取到它的一个实际的数据啊,然后具体的读那个大表的数据的时候,它跟那个缓存里面数据啊去做校用啊,在输出最后就OK了,因为这个过程大家自己都熟悉过,就非常熟悉了啊,大家就快速过一下,过一下。
03:19
之后他说案例实操其实我们已经做过了,是不是啊,迈搏教育开和不开是不是差别还是还是有的呀,当时还记得吗?不开的时候,我们当时执行的是。50多还是40多啊,就把它关掉,40多是吧,然后开了之后是二三十多是吧?啊这个还是有用的,脉搏交验开和关已经我们已经测过了,已经测过了,就在这就不再单独去测了,因为跑一个MR。还是很慢的,而且这个还是执行那个大表教育小表的一个操作是吧,跟上面的操作是一样的一样的,那你要知道有这个功能,而且它默认就是开启的,默认就是开启的这个你要知道第二个。就是它这个小表啊。
04:02
它这个大小,它have框架,他认为多少是一个小表。是可以自己设置的,是可以自己设置的,你需要知道这两点就OK了,好吧。
我来说两句