00:00
好的同学们,嗯,那么接下来呢,我们就进入这个have整个优化的一个学习,那在生产环境当中,咱们整在对于have的优化呢,是非常重要的一块啊,呃,那么我们本次课程当中主要从哪些方面给大家去讲我们的优化呢?我们来看一下啊,但是在聊优化之前,我们首先明确一下我们目前来说使用的have版本。啊,那我们可以给大家看一下,我们的资料当中是3.1.2的版本,也就是说呃,有的同学可能用的是比较老的一个版本,呃,那在这种情况下来说呢,可能我们当前所聊的优化方案,你那边看到的效果可能不太一样啊,那是因为有版本。来导致的啊,所以一定要明确,我们现在用的是3.1.2,如有不同。
01:00
啊,那你一定要确定是否是版本的问题,一定要确定一下OK吧?好,那么接下来呢,我们就看一下在本次课程当中,我们主要需要给大家介绍什么内容,首先我们折叠一下,那么我们主要从这么几章给大家去做介绍,第一章。是查看执行计划。呃,那我们知道在。我们正常写的是一个hi口在have的客户端,对不对,但是真正运行的时候呢,默认它运行的是一个map reduce任务,呃,那么我们通过对于海口查看它的一个执行计划,了解一下map reduce它的一个执行过程,这是第一个点,第二个在生产环境当中,往往我们有时候呢,数据量是非常庞大的。如果说我们做了一个优化以后。需要用测试的方式来看一下当前的优化是否生效,那往往这个耗费的时间是非常多的,因为有时候我们数据量巨大,呃,运行一个色课可能就需要好几个小时。
02:10
那我们做了一点优化之后,我们就要运行一下,浪费几个小时不太合适,所以我们在做完优化以后,我们可以通过查看执行计划来了解到咱们的优化是否起到作用。啊,所以呢,我们把第一章只设置一个查看执行计划,它是一个非常重点的一个内容,在生产环境当中可以帮我们节约很多的时间,啊,这是第一个,第二个。接下来从第二章开始啊呃,到。最后一章我们都要从不同的角度来了解一下have写hi客的时候有哪些优化啊,那么第二章呢,是大的从DDL这个语句上面,我们从建标语句上面来看一下我们能不能做到优化,哎,当然是可以的,因为在have当中呢,是有分区表,分同表啊,那第三章呢,是骇客当中的一个优化,那么第三章我们将会涉及到非常多的优化手段。
03:16
啊呃,当然有一些比较常规,有一些呢,可能大家之前没有接触到,那在这个当中呢,我们给他摘出来总结在这块给大家,呃,第四章是生长环境当中老生常谈的一个。内容的一个优化叫数据倾斜,那我们就看一下在生产环境当中有哪些情况会导致我们的数据倾斜,以及数据倾斜和数据过量,它们之间又有什么区别?最后呢,我们就给大家介绍几种方法去解决我们的数据倾斜问题。呃,第五章是从job任务,整体任务的角度来聊一聊我们have当中的优化,第六章have on Spark的优化,因为我们知道。
04:00
我们have除了mi引擎,还有T子,还有这个Spark引擎,所以呢,在生产环境当中有一些公司呢,也是用Spark作为我们Hu的引擎的,所以最后一张呢,我们放了一个汉王SSPA当中一些挑优的参数,到时候我们可以带大家去过一下啊,但是呢,其实大家如果用的是汉王wag,应该知道氦王bug呢,其实bug还是比较多的啊呃,后面呢,我会给大家稍微的去提一提啊,大家也可以结合自己在生产环境当中看有没有遇到过类似的这种bug OK,这是我们当前整个have优化过程当中所涉及到的全部内容。
我来说两句