00:00
好,我们看一下当中还有一个表的优化。那既然表的优化肯定离不开这个大小表互相交易的一个问题。大小表校验的问题,一般显摆so的时候是不是用小表,如何驱动大表啊,然后把小表放左边是吧?Have当中它也一样,但是新版本的时候你会发现他们俩。差不多差不多,来我们来测一下啊,首先创建一个大表,我先跟大家说一下这个数据在哪,这边有一个,这有两个,这是10万条的小表数据,这是100万条的大表数据。大表数据,我们先把这个数据导进来吧。在这么。哎。咋回事?不是卡了是吧。这么不给视频,好,现在我们把两张表给他导进来吧,数据在这么好。
01:13
拖进来这样就可以了是吧,然后还有一个是吧。对上一个大表,一个big big table。拖进来两张表已经有了,好,接下来我们针对于这两张表呢,把表这两文件把表建起来吧,然后把数据导进来,然后才能做教育码来做一下。这个建表语句就不写了,它这里面有哪些字段,你可以看一下,它有一个。Big in一个ID,然后还有一个时间戳啊,也是时间戳是big int类型的,然后还有一个UID,然后是一个keyboard,它是它这里面日志啊,都是一些搜索的,看一下我们看小的吧。都是些人家网站上,然后搜索的一些内容是吧,凡人修仙传啊等等这些内容,所以他这个日志,他这个是10万条的一个日志是吧,10万条的一个日志,然后我们把这个导进来,然后现在表的结构也知道了吧,啊表的结构也知道了,就是大表,其实大表跟小表它的一个字段啊是一样的,两个表的字段是一样的,只不过它里面数据会有有所差别。
02:26
走一下。大表建立完了,然后把小表也减小。创建一个小表。啊,它的名字呢,也是big table跟small table2个名字,然后我们还需要建一个教育table,因为你现在要做两个大表跟小表的交易,你不能交易之后把结果打印到控制台吧。懂我的意思吧,你打印到控制台不合适吧,这个一个10万条,一个100万条,我也不知道里面到底有多少条能交易账号,你打印到控制台肯定不合适,那我们中间用一个表接收一下,这个表其实没有什么其他的意义,也不看它里边数据。
03:03
主要我们看一下教研之后的一个时间是吧。我们弄一个中间表,哎,给它创建,你看这个一个交易table,交易table。接下来就是把两个表的数据导进来是不是?导进来,你也把这个拿过来粘一下,不抄了。一起粘这个不行啊,除非我把这个删掉。对吧,把这个have什么这个default这个头给删掉,才能一起粘。加载一下数据。你们粘的时候,你要看一下你这个路径跟我是不是一样吗?一样的时候你也可以粘一下啊,因为现在这些东西其实再再来敲的话,没有什么意义了。就是浪费时间了是吧。把表校验进来啊,加入进来,加入进来之后我们执行一下一个叫入操作,他这边说关闭一个map校验的一个功能,其实你关不关都还好,因为我们要测的是什么。小表在前和大表在前,它两个的一个不同了,但只要你这个属性开或者关,你都保持统一就OK了吧,哎,保持统一就OK了,你不要说你小表交你大表的时候把它打开,然后大表交小表的时候把它不打开,这样不合适吧。
04:15
啊,那我们就不关了啊,Ma教易的功能就是从ma端他给你做交易嘛,就是之前所讲的,你们不是做过ma教育跟reduce教自己去写那个代码吗?对吧,就是他默认了。在have当中,它这个功能是打开的,功能是打开的,它因为怕到维修端会产生一个数据倾斜,所以它做了优化,这个这个功能慢打开的,我们可以看一下。CTRLC拿过来啊,这些属性你看现在就有很多很多的一个属性了,是吧,你说你要记这些属性,哪记得哪记得过来啊是吧。然后我们做一下这个,呃,先执行这个小表进行大表,就小表在前,大表在后,大表在后,看一下它最终执行的一个时间。
05:09
这个我们把本地模式关了啊。知道了,我当时做了那个本地模式关了。那他都提交给谁了,103了吧。反正这个东西每次测都不一样,而且在每个班上测呢也都不一样。但是我当次就是这两次按的时间很近,它还是有一定的说明价值的吧。啊,卖过单完了,然后开始跑那个。44是吧,44好,然后我们把这个之前还有测过35的是说明这电脑。越越来越老了,不行了是吧。换来看一下这个大表,叫你小表先把这个看完好吧,把课上完,不能现在就换了。
06:20
刚才是这个44是吧,四我们可以把这个数据呢。再再放到这啊,粘一份啊。这个应该是执行过了质量。他执行过一次,我们再把这个再测一次吧。其实你看啊,他现在你看第一次我们执行的是什么小表你看啊,注意这一块吧,是。小表在大表看见没啊,小表大第一次执行的是这个,然后我们这个再执行一次。
07:03
C第一个就是数据量的问题,数据量还不够大,第二个就是他自己还底层啊,已经做了这个小表的大小的一个优化已经做过了。在高版本,但是老版本的时候,但是你自己在工作当中写的时候,如果说他俩数据量两个表数据量差别还是很大的时候,你还是要把小表写在前面嘛,不管有没有作文,你要养成这种习惯,养成这种习惯。这确实是慢是吧,小表放在前面的时候,而且差的挺多呀,那很奇怪,之前测的时候都都很类似,三十五三十四是吧。虽然好像看着这个大表,这小表也快一点,但是它很类似啊。还是38是吧,还是很很高,底层做了一个自己的一个优化,然后这样,呃,我们再做一个测试,把这个东西关了,麦不能关了,然后再测一下。
08:06
看他是什么样子,其实你要面试的过程当中,他问你这个问题,你跟他说,你说高版本已经,呃,已经自己做了优化了啊,小表大表写在前面,但是你一定要说你做过做过实验了啊,但是做实验你不要说你10万条100万条测的。因为10万条,100万条根本不不足以说明任何问题,你知道吗?10万条,100万条太少了,你说一个表10万条,一个表三条,这种肯定得上一条。从大数据人家上一条,然后看一下这个是34,这个是小表交应大表的一个时间吧,34,然后我们再说一下这个大表交小表。其实他们俩应该是还是很接近的,很接近的应该是。
09:08
但是他这个3.13.29是吧。第一次倒数十十五十十三差不多啊,这次应该差不多。他们应该还是很接近35是吧,刚才是34,他们俩是还是很接近的,很接近的,因为他have的底层已经做了这个优化了,不需要你去说刻意的去写啊,小表在前啊,或者大表在前啊,是这个意思。
我来说两句