00:00
好,那我们首先来看一下第一个章节啊,查看执行计划,那么从Spark3.0发布的信息来看呢,我们可以发现它摆一半的优化点都在Spark circle上面,那这是因为呢,咱们Spark circle相对来讲它更重要一点,它成为一个新一代的一个引擎内核,那也不用担心说其他框架栏路就不管了嘛,不会啊,咱们其他的模块像mi吧,是streaming graph,它都可以共享Spark circle的性能优化啊,所以咱们只把它关注好就可以了。那我们要对Spark进行优化呢?那首先第一步咱们要知道问题在哪里,要对症下药啊,你不能说搜了一堆参数直接往上放就完事了,对吧,你要知道你的瓶颈在哪里,就比如说你生活中了,你跟你对象可能发生不愉快,然后他生气了啊,不理你,你问他啊,你为什么生气了,你是不是生气了,他就说没事啊,你不用管我,那可能过了一会儿啊,你真的没理他。
01:05
你在那玩自个儿的,他就越来越想越气,对吧,就开始跟你各种闹啊,这就是因为你没有抓住他生气的原因,为什么让他生气了啊,你还觉得没事儿啊,那咱们所以第一步呢,就是要了解执行计划啊。那在本次课程之前呢,咱们先来准备一个测试用表跟数据,给到大家的这个资料文件夹里面,这边有一个数据文件,这边有三个log文件,那么大家首先呢,把它上传到你的HDFS,那我是上传到了一个Spark data,这个目录是我自己创建的,将三个文件上传上来啊,那我们可以看到这三个文件分别是两个多G,四个多G,还有三兆啊,我们本次呢课程呢,就基于这三三个数据啊来做一些演示。那上传完之后咱们,呃,为了方便咱们就结合hi来使用,那我们需要在hi里面,你首先创建一个数据库啊,那创建完之后呢,再执行给到大家的一个初始化代码啊,我们看一下简单看一下代码在这个初始化工具里面。
02:23
他们这边就会去执行插入啊,主要是很简单的逻辑啊,你看读取这个文件,然后呢,保存到这个库下面的这张表去啊,都是一样的,那have里边你创建完库之后就可以执行这个程序了啊,你可以在idea运行,也可以将打完包之后放到你的集群上面去执行啊,都是可以的。但这个时间比较久,有个地方要提醒大家要修改的啊,第一个呃,如果你是idea运行,你把这个注释打开啊,用logo嘛,那如果你是打包到集群,把它注释掉,这第一个细节,第二一个呢,就是有些要修改的地方,第一个。
03:08
在初始化SC的时候,咱们这个用户名你看看,根据你的需要改成你自己的,另外一个就是HDFS的一个地址,那个name no的文件地址,这个你改成自己的,这个就是哈杜里边那个Co-site这个配置文件里面不是有一个配置项叫FS.defa。FS嘛啊,你就把这个地址把它拿过来就行了。啊,简单投一眼哎。我这边是把我的配置文件拷过来的,就这个配置项这个东西。呃,另外一个呢,就是你把你自己哈杜集群还有hi的配置文件啊,可以拷贝到这这里把它覆盖掉就行了,因为这个是我的啊,这个是我的。Co杠赛,HDFS,还有盐啊这几个。
04:01
那这就是前期的准备工作,准备完之后去执行就OK了,那执行过程中呢,呃,每个人那个性能跟配置不一样,时长不一定,像我的话跑起来可能还会浪费一点时间,所以我提前已经把它数据都插插好了啊都准备好了,那可以看一下我hi服的一个数据库,我的库路径是这里,You have warhouse。那这个就是我创建的数据库啊,空名点进来,那分别插入的话,应该是有这三张表,三张表。啊,那这就是咱们前期一个准备工作啊。
我来说两句