温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,接下来呢,我们讲一下这个第六章拍do企业优化这一章呢,是你标几个星都不为过啊。疯狂的标这个星啊。重中之重,无论在开发还是在面试当中啊。都是非常非常重要。开发呢,是能解决我们实际的问题,因为这里面都来源于企业这种优化方案。那么这个面试呢?呃,那就是面试官啊,他一定要问你,你。这个有没有做过优化,这能体现出你的这个功力的深厚啊。或者说你连优化都没做过。你想要一个20以上。好,那下面我们看一下第一个6.1卖,本就是跑得慢的原因。在开发中就是有那么几个照吧,阿姨好。那你怎么办?怎么去分析这个问题?那首先看一下啊,外边这个很慢,主要有这么两点。慢效率的瓶颈在于以下几点,第一个,计算机性能。
01:02
包括什么呢?它的CPU、内存、磁盘、网络。之前我给大家举个例子是吧,在这个百度部门。这个遇到了这种瓶颈的时候干什么。就是加机器加服务器啊,加高性能服务器。直接解决,一步到位。啊,别废话啊。经麻烦程序员了是吧。这是一个非常好的一个解决方案,只要你有足够的钱。那这是这种方案啊啊。那下面呢,是这个IO操作优化,那就是具体的这个ma内部的一个优化了。这个呢,是要考虑这个数据清晰。那么几个。他呢,消费处理的数据占90%,甚至90以上啊。导致呢,这个任务迟迟完成不了。其他任务呢,闲的要死。
02:01
半吊子。Map和reduce数设置不合理。其实这个呢,主要就是你这个数啊,脉脉步数呢,就是你。你map阶段你开几个1K的数据。多少个卖不太。1G的数据你开多少?主要是涉及到切片的问题啊。切多少片能达?看到最佳的一个笑话。MAP6运行时,Map阶段运行时间太长,导致水六等待过久。那这个呢,也有这种情况啊。表示卖不鸡蛋呢?耗费时间最长的是吧。就是他的suffer阶段对吧?啊map阶段suffer啊还包括阶段,那这个是map时间太长,那就是它的沙时间太长了,包括他的一些。基本上就是它的一写文件特别多啊,一写完之后呢,再进行归并合并啊,这个呢是。时间。还有呢,就是小文件过多。
03:02
小文件,我反复说说最痛苦了啊,在开发中会让你痛苦。所以说这个要注意啊,后面我单独一项对这个小文件进行一个优化。大量的不可分块的超大文件。文件呢,不可切割啊。但是呢,两个G3个G是。那这个处理起来那就。另一个呢,就是溢血次数过多。一写是不是就是往磁盘上进行一个序列化,那序列化往磁盘上写是不是很慢了。受磁盘的一个性能的影响。另一个呢是默次数过多,默是不是对数据进行一个规定排序啊。排序的话是不是得各种去预算处理啊。这么几个角度。会影响他最终。
我来说两句