温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
最后呢,我们带着大家去了解一下have on Spark这里边的一个优化的参数,当然呢,这个地方我们在文档当中写了很多的一个解释,大家呢可以下来自己去阅读一下,那有哪些参数我们可以去做配置呢?第一个啊,呃,Spark的一个ex的合数,我们主要分为ex和driver这两方面,第一个合数可配对吧,就是它的一个最动物营养的病度,第二个是我们的内存,同时有对内和对外内存,我们都可以去配置啊好,那么第三个点就是我们所看到的excu的实例数。就是我们当前要一共启动多少个XQ的实例啊,我们可以自己去配置。啊,自己去配置好,呃,那接下来呢,还有一个点在于我们这个过程当中,如果说上面按照上面这种方式啊,呃,那都是怎么样呢,我们自己给他写死的可能不太灵活啊,那我们可以启用。动态分配。动态分配,它可以启用动态分配的方式,对吧?下面是一组参考的配置信息,这个呢,我们不用特别关心对吧,包括我们序列化的这个类啊,这种方式比Java的那个序列化要更高效一点,因为Java序列化呢,是一个非常重的一个序列化框架啊,所以leible对吧?那我们可以用k yo这种方式来实现里边这个功能,其他的就是刚才我们所看到的,诶,XQ的合数啊,X的实例数啊,动态修改呀,以及。
01:25
对内存对外内存的一个大小,就是刚才我们看到的一些参数对吧?好,那另外一个还有一个driver参数,Driver参数也可以设置。CPU的数量,以及我们的memory内存大小,对吧,无非就是说设置这个CPU,设置这些内容,其他的都还好,就是说对于资源我们要配置好了,其他的都不是什么问题,好那我们之前在最早的时候给大家说过,说汉王bug呢,有一些小bug啊,那这块呢,给大家提两个点啊,大家可以下去自己做一个测试,第一个当我们建表语句当中如果涉及到时间字段。
02:01
第1D,对于时间字段呢?如果我们用的是string类型,而不是用的data类型,那么在这种情况下,我们当使用一个叫data塔dif函数做两个日期相减函数,并且这个内容在子查询里边。并且在紫参云的时候,那么这个时候呢,会有一个空指针异常。啊,会有个控制帧异常,那修复这个问题两种解决方案,第一我们把引擎换回MR,这个问题即可解决,第二,我们把这个字段由C类型变成data塔类型,也可以解决当前这个问题,这是第一个,第二个还有一个点。在于开窗。在于开窗操作啊,那我们知道开窗操作呢,它里边可以写all。BY一个什么字段?DT按照时间排序,当然我们后面继续可以写Rose between。第一行到当前行,或者说到下一行怎么怎么样啊,但是要注意,如果说在汉王S当中,那么你后面写的Rose将不会生效。
03:10
呃,它永远都是从第一行到当前行。那如果说我们用的是MR引擎,那他将会看它数顺序,当然是按照我们DT排的序,最后呢一个窗口当中包含的内容将会采用的是Rose between这个后面所采用的一些内容。啊,这个一定我们采用能调这两个呢,要稍微的去注意一下啊,因为有可能在生产环境当中,当我们用到开窗函数的时候呢,最后我们发现这个结果怎么样,不太对了啊,这个一定要注意一下。
我来说两句