文章/答案/技术大牛

发布

首页视频165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

2022-12-022022-12-02 16:02:19播放39

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hadoop3.x/视频/165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来我们来看一下maps在生产环境下如何来调优。对吧，哎，据说咱们这个精通S对吧？啊S那看一看整个这个S过程当中，我们能配置哪些参数，使你这个MA6程序达到一个最优的状态。那首先我们来看一下这个，呃，Map阶段，就是map task阶段对应的S，我们可以做哪些优化哈，那我们先来回顾一下map reduce当中S的啊，这个map基站的沙。啊卖方法出来之后，对吧？哎，进入环境缓冲区，其实呢，这个数据啊，应该先进入到标记数据是哪一个分区的，然后才会进入到环境缓冲区对吧？因为它进的是叫get爬培方法，还记得吧？啊那进下来之后呢，对数据呢，进行分区排序，排序之后对数据进行一写啊第二次一写。一些之后呢，进行一个归并，归并然后commander压缩，压缩之后写入到磁盘，等待re端拉取整个，这是map test阶段的suffer。
01:02
那在这个沙过程当中，我们能进行哪些优化？首先来看第一个。你进来之后，首先标记数据是哪一个分区的，对吧，那这在这里面我们就可以重写你的get part方法。然后对你的数据进行一个冲击分区，刚才我们场景提出来一个说这个数据倾斜。对吧，大量的这个重复的key进入到了同一个reduce。那我们能不能把这个K给他打散呢？如果你这个数据量比较大，我是不是可以在前面加上一个随机数加二加三，这不是相同P吗？对吧，那我对你的K加上一加上二加上三，那我是不是就分出来三份了。那我这个reduce的压力不就小了吗？我计算性能不就快了吗？好，所以说这里面可以制定义分区，减少数据倾斜，这是其中一个解决方案。OK，再来。那下面呢，是减少溢血次数，那怎么讲呢？哎，它是这样做的啊，还记得咱这个环形缓冲区默认是100兆吗。
02:02
对吧，哎，我可以把它加大，加大到200兆。或者呢，我这里还原缓冲区到达80%的时候进行反应一些，我可以给他提高到90%，那有什么好处呢？你看啊，我这里是达到阀值之后进行一个一写对吧，形成一个文件，那如果我说这两个值加大的话，那我产生一写文件的个数是不是就少了。思考一下，比如说总共呢，我是这个，呃，128兆的数据。对吧，哎，那我在一写文件的数就会少了。哎，那少了之后呢，你墨叽这个墨叽这个数不就少了吗？那我速度不就快了吗？哎，好，这是这块，那再有我增加每次墨子合并的次数，这是合并。对吧，在这块，哎，我归并的时候，我能不能一次多归并几个。我原来一次默认归并的这个文件数呢是十个，如果我的内存足够充足，我可以归并到20个甚至更多。前提条件是你的系统的内存得足够用。
03:04
OK吧，哎，这要知道你别内存不够用，你还还往上往上调，如果内存不够用的话，你得把这值往小了调。因为磨制的过程啊，是把数据加载到内存进行一个处理。再往下。在不影响业务的前提条件下，我们可以提前开启，相当于在map阶段提前进行了一次密聚合。对吧，哎，那当然它有前提条件，也就说哎，求和没问题，求平均值那就不行了。再往下，下面呢是为了减少磁盘IO。你想想，我这是map阶段，最后的数据写入到磁盘了，是不是等待radio端来拉取啊，那拉取的过程当中是要走网络。那如果我为了减少这个网络上的数据的一个传输，我可以采用耐皮压缩或者拉住罗啊，通常情况下企业里面用耐皮压缩的比较多。啊，那这块这是具体的一个配置。这是采用压缩减少10O，那下面我可以调整map test的内存，哎，默认map test的内存上限呢，是一个G内存。
04:06
对吧，哎，那一个G内存够还是不够呢。通常1G内存处理128兆数据绰绰有余。那如果生产环境下，你这个map阶段处理的数据大于128兆，什么场景你前面的数据就是压缩的。对吧，假如说压缩完之后是一个G。那你觉得用1G的内存去处理一个G的数据能够用吗？不够用对吧，那你就要把这个map t的内存往上调，那通常你掌握一个原则，就是128兆数据，我用1G的内存来处理，原则上就够。那当然说我想用2G，那处理速度就更快一些。OK吧，好。向下走，那下面呢，除了这个map task那个内存上限之后，你还要调整这个mapb task对应内存大小，它俩的值你始终让它一致就行了，它是1G，那你就是1G，它2G，你也2G。哎，这是这个Java堆，OK吧，哎，堆里的那份大小，如果说你报的这个异常是out of OM就是OM对吧，那你要挑它。
05:06
哎，好多同学忘了去调它，只调了这一个值，其实没有用。哎，它是控制你这个Java能用多少对内存的啊，这个是map test内存的一个上限，这是两个值啊，都是保持一致就行了。再往下说，你这个map test里面的CPU默认呢，只有一个。那如果你这个任务呢，是一个CPU或者说计算密集型任务。里面涉及到大量的这种啊，加减乘除运算，那我就要增加对应的CPU核数。哎，我可以考虑增加两个，增加三个，哎，这样去提高。再往下，下边有一个异常重试。什么意思呢？说每个每个map task，它这个运行故障之后或者失败了，它可以有一个重试的机制。那咱默认可以重试几次呢？可以重试四次。那如果我说我这个服务器啊。特别差对不对，我知道他每次运行它第一次成功的可能性不太大，那其实四次也不一定够，那我可以适当的这个加大这个重复次数，比如说可以重复这个五次六次甚至七次。
06:07
但是如果我的服务器非趁，那我可以适当的降低这个啊，重复执行这个次数，甚至两次就行了。对吧，哎，这也是一个比较灵活的一个参数，好，这就是在这个。Map task阶段对应的S我能进行哪些相关的优化？OK，那下面我们来看一下这个reduce阶段的沙。对吧？哎，Map阶段结束之后，接下来进入到reduce，那reduce呢，首先呢是拷贝自己指定分区的数据，进入到reduce，拷贝过来首先放到内存里面，内存不够之后一写到磁盘，然后呢，不管你是内存的数据还是一写的数据，我都会进你对你进行归并排序，归并排完序之后，其实正常是一个分组，然后把数据呢写入到这流方法里面去。那在这个过程当中，我们能进行哪些优化呢？首先来看第一个参数，你这块呢是拉取自己指定分区的数据，那你一次拉取几个map task。
07:02
对应分级的数据。对吧，我前面可能100个map test，那你一下子就把100个map test数据都拉过来吗？不是，哎，他默认的一次只拉取五个map test的数据。哎，那生产文件呢，你可以提高到十个级以上。OK吧，哎，这是这块，哎，那前提条件仍然是你这块的内存，或者是你这台服务器的性能啊比较强，那你一次可以多拉几个，如果你的服务器性能不是那么特别强，那你这块就少拉几个。再往下走。那你拉取过来之后，对吧，我要放在内存里面，那我给这个数据准备多少内存。是吧，哎，默认的是你总内存的70%。啊，假如说你总内存reduce task啊，是1G内存，那我给你700兆。哎，这么大内存。OK吧，哎，那可以提高到80%。是吧，往上提高啊，让内存里面处理的数据越多，那你的计算性能是不是就快呀。
08:00
这是这个。那再往下找，下面呢是他。哎，仍然是沙鸡蛋的，这个末是规定排序啊，规定排序那它能用的内存默认是你总内存的66%。那你也可以适当的再往上提高，比如说提高到70%或者75再往上爬。OK吧，嗯，能用内存的那尽量用内存啊，当然还是根据你的机器的这个性能有关系，内存充足那我就多加一点。再往下。它也有自己的内存上限，默认的也是一个G。那你记住，原则仍然是128兆数据对应着1G内存，比如说你进来的数据。有128兆，那我就1G内存去处理，那就比较完美。那如果你的数据量比比这个一百八兆还小，那我们用1G就行了，那如果呢，你这里的数据大于128兆，那一般能往上调啊，可以调高到多少呢？四到六个G。如果四到6G还不行，那你就可以适当的要啊，自定义这个分区了。对吧，让这个数据呢？呃，部署在不同的这个reduce当中，比如减少每一个reduce里面的数据量。
09:06
啊，那叫自定义分区，再往下，下面呢，这个呢，仍然是reduce task的对应内存大小。对吧，哎，跟我们那个map t是一样的，那这两个值呢，要保持一致，你这边是一个G，我就一个G，你两个G，我两个G，你四个G，我也四个G。哎，如果发生报的是这个OM，那你就要跳他。对吧，啊。再往下看，说reduce task这个CPU核数啊，默认也是一个，那当然其实也不是特别充足啊，正常情况下呢，你至少要提高到呃，两到四个，因为reduce task它是把所有map test的数据聚合过来，对吧，指定分级的数据聚合过来，它的数据量呢，还是蛮大的啊，一般呢，要提高这个对应的CPU核数。同时这里面。按radio task也有运行失败的时候，那运行失败默认呢，也是重复执行四次。如果你的服务器性能好，那你就可以少执行几次，如果这个服务器性能比较差，那你就多执行几次，把这个值往上调高。
10:01
再往下面说啊，这个呢是当map task完成多少比例之后，我可以去开启reduce task，你这是map task对吧，假如说100个。那我是等100个map test全执行完之后，我才开始执行这个radio test吗？不是，哎，你只要map test对吧，哎，执行到5%的时候，那我这个read test就可以去申请资源准备开始运行了。OK吧，哎，这是这个值，那当然你说这个我就想等到map t全都结束，那你这个就设成一呗。后面还有一个。这个参数也比较有意思，说呀，如果你一个task在一定时间内没有进入的数据，哎，也不会读取新的数据，比如说卡死状态没有数据进来。那多长时间没有数据进来呢？哎，假如说十分钟都没有数据进来，那我会怎么办？对吧？啊，会怎么办？如果你的程序对每条输入数的数据处理时间过长，建议把这参数调大，也就如果说没有这个超过十分钟了，还没有进来一条新的数据，那我就可以强制退出这个程序啊，这是这个，呃，Map。
11:11
超时的一个时间。那如果你的服务器性能比较差，你说这十分钟很快我我就达到了，嗯，但是呢，其实我程序还在正常运行，那怎么办？那你把这十分钟往长了调。啊，像这个正常的机器，那不会说十分钟他也不会，呃，不会十分钟之内没有数据进来。对吧。那这个参数呢，也可以适当的一个调整。这就是卖6S，哎，这个在radio阶段相关阐述一个调用，那这两个加，呃，这个还有一个最后一个。说，如果你可以不用reduce的话，那尽量就不用。因为reduce呢，只要有reduce它就有沙风，有沙风呢就要涉及到一系列的这个排序分区，对吧，还有墨合并以及拉取这个过程，这个效率呢是比较低的，能不用就不用。行，那这些参数啊，啊，对于大家这个开发的时候呢，非常重要啊，这些参数我们都需要进行一个啊思考啊，要不要进行一个调整，那调整的依据呢，主要是你自己本身服务器的性能，以及呢，你对于计算一个MR程序，你对它的速度的一个响应要求，你希望它更快，对吧，那你就要调整一些这里面参数啊，当然前提条件呢，是你的机器硬件得有这些内存和对应的CPU。
12:22
OK吧，哎，这就是MA6啊，参数的一个调用。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hadoop3.x

（81/178）

8分30秒

01_尚硅谷_Hadoop_开篇_课程整体介绍

670

4分33秒

02_尚硅谷_Hadoop_概论_大数据的概念

610

7分21秒

03_尚硅谷_Hadoop_概论_大数据的特点

460

9分57秒

04_尚硅谷_Hadoop_概论_大数据的应用场景

410

8分16秒

05_尚硅谷_Hadoop_概论_大数据的发展场景

380

6分24秒

06_尚硅谷_Hadoop_概论_未来工作内容

390

7分28秒

07_尚硅谷_Hadoop_入门_课程介绍

450

2分59秒

08_尚硅谷_Hadoop_入门_Hadoop是什么

470

5分50秒

09_尚硅谷_Hadoop_入门_Hadoop发展历史

470

15分24秒

100_尚硅谷_Hadoop_MapReduce_全排序案例

510

3分6秒

101_尚硅谷_Hadoop_MapReduce_二次排序案例

360

6分52秒

102_尚硅谷_Hadoop_MapReduce_区内排序案例

350

7分17秒

103_尚硅谷_Hadoop_MapReduce_Combiner概述

430

12分32秒

104_尚硅谷_Hadoop_MapReduce_Combiner案例

490

3分41秒

105_尚硅谷_Hadoop_MapReduce_outputformat概述

330

4分21秒

106_尚硅谷_Hadoop_MapReduce_自定义outputformat案例需求分析

310

4分32秒

107_尚硅谷_Hadoop_MapReduce_自定义outputformat案例mapper&reducer

390

12分31秒

108_尚硅谷_Hadoop_MapReduce_自定义outputformat案例执行

470

3分45秒

109_尚硅谷_Hadoop_MapReduce_MapTask工作机制

330

5分57秒

10_尚硅谷_Hadoop_入门_Hadoop三大发行版本

420

8分59秒

110_尚硅谷_Hadoop_MapReduce_ReduceTask工作机制&并行度

410

16分56秒

111_尚硅谷_Hadoop_MapReduce_MapTask源码

460

15分23秒

112_尚硅谷_Hadoop_MapReduce_ReduceTask源码

450

9分21秒

113_尚硅谷_Hadoop_MapReduce_ReduceJoin案例需求分析

390

7分7秒

114_尚硅谷_Hadoop_MapReduce_ReduceJoin案例TableBean

450

12分33秒

115_尚硅谷_Hadoop_MapReduce_ReduceJoin案例Mapper

370

12分26秒

116_尚硅谷_Hadoop_MapReduce_ReduceJoin案例完成

530

4分14秒

117_尚硅谷_Hadoop_MapReduce_ReduceJoin案例debug

380

6分56秒

118_尚硅谷_Hadoop_MapReduce_MapJoin案例需求分析

490

13分9秒

119_尚硅谷_Hadoop_MapReduce_MapJoin案例完成

400

3分51秒

11_尚硅谷_Hadoop_入门_Hadoop优势

400

2分48秒

120_尚硅谷_Hadoop_MapReduce_MapJoin案例debug

400

15分10秒

121_尚硅谷_Hadoop_MapReduce_ETL数据清洗案例

450

10分49秒

122_尚硅谷_Hadoop_MapReduce_MapReduce开发总结

380

16分4秒

123_尚硅谷_Hadoop_MapReduce_压缩概述

300

10分21秒

124_尚硅谷_Hadoop_MapReduce_压缩案例实操

330

5分18秒

125_尚硅谷_Hadoop_Yarn_课程介绍

400

4分55秒

126_尚硅谷_Hadoop_Yarn_基础架构

440

6分42秒

127_尚硅谷_Hadoop_Yarn_工作机制

400

3分35秒

128_尚硅谷_Hadoop_Yarn_全流程作业

340

4分17秒

129_尚硅谷_Hadoop_Yarn_FIFO调度器

380

2分59秒

12_尚硅谷_Hadoop_入门_Hadoop1.x2.x3.x区别

440

10分23秒

130_尚硅谷_Hadoop_Yarn_容量调度器

370

19分24秒

131_尚硅谷_Hadoop_Yarn_公平调度器

480

14分48秒

132_尚硅谷_Hadoop_Yarn_常用命令

500

10分25秒

133_尚硅谷_Hadoop_Yarn_生产环境核心参数配置

350

4分14秒

134_尚硅谷_Hadoop_Yarn_Linux集群快照

380

15分30秒

135_尚硅谷_Hadoop_Yarn_生产环境核心参数配置案例

330

5分42秒

136_尚硅谷_Hadoop_Yarn_生产环境多队列创建&好处

360

12分39秒

137_尚硅谷_Hadoop_Yarn_容量调度器多队列案例

370

6分50秒

138_尚硅谷_Hadoop_Yarn_容量调度器任务优先级

350

15分5秒

139_尚硅谷_Hadoop_Yarn_公平调度器案例

360

6分24秒

13_尚硅谷_Hadoop_入门_HDFS概述

470

5分11秒

140_尚硅谷_Hadoop_Yarn_Tool接口案例环境准备

370

19分14秒

141_尚硅谷_Hadoop_Yarn_Tool接口案例完成

430

10分25秒

142_尚硅谷_Hadoop_Yarn_课程总结

420

14分13秒

143_尚硅谷_Hadoop_生产调优手册_核心参数_NN内存配置

240

3分11秒

144_尚硅谷_Hadoop_生产调优手册_核心参数_NN心跳并发配置

330

7分15秒

145_尚硅谷_Hadoop_生产调优手册_核心参数_开启回收站

370

5分54秒

146_尚硅谷_Hadoop_生产调优手册_HDFS压测环境准备

390

18分53秒

147_尚硅谷_Hadoop_生产调优手册_HDFS读写压测

400

8分24秒

148_尚硅谷_Hadoop_生产调优手册_NN多目录配置

280

8分41秒

149_尚硅谷_Hadoop_生产调优手册_DN多目录及磁盘间数据均衡

350

6分34秒

14_尚硅谷_Hadoop_入门_YARN概述

400

10分0秒

150_尚硅谷_Hadoop_生产调优手册_添加白名单

350

13分6秒

151_尚硅谷_Hadoop_生产调优手册_服役新服务器

370

3分16秒

152_尚硅谷_Hadoop_生产调优手册_服务器间数据均衡

340

7分45秒

153_尚硅谷_Hadoop_生产调优手册_黑名单退役服务器

330

11分20秒

154_尚硅谷_Hadoop_生产调优手册_存储优化_5台服务器准备

390

8分15秒

155_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码原理

320

10分40秒

156_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码案例

390

8分34秒

157_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储概述

430

17分39秒

158_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储案例实操

380

9分8秒

159_尚硅谷_Hadoop_生产调优手册_NameNode故障处理

430

1分54秒

15_尚硅谷_Hadoop_入门_MapReduce概述

500

18分31秒

160_尚硅谷_Hadoop_生产调优手册_集群安全模式&磁盘修复

360

9分18秒

161_尚硅谷_Hadoop_生产调优手册_慢磁盘监控

420

8分10秒

162_尚硅谷_Hadoop_生产调优手册_小文件归档

410

3分17秒

163_尚硅谷_Hadoop_生产调优手册_集群数据迁移

340

2分42秒

164_尚硅谷_Hadoop_生产调优手册_MR跑的慢的原因

370

12分25秒

165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

390

5分25秒

166_尚硅谷_Hadoop_生产调优手册_MR数据倾斜问题

410

1分17秒

167_尚硅谷_Hadoop_生产调优手册_Yarn生产经验

370

10分13秒

168_尚硅谷_Hadoop_生产调优手册_HDFS小文件优化方法

340

2分52秒

169_尚硅谷_Hadoop_生产调优手册_MapReduce集群压测

350

3分21秒

16_尚硅谷_Hadoop_入门_HDFS&YARN&MR关系

420

14分59秒

170_尚硅谷_Hadoop_生产调优手册_企业开发场景案例

390

13分43秒

171_尚硅谷_Hadoop_源码解析_RPC通信原理解析

320

21分36秒

172_尚硅谷_Hadoop_源码解析_NameNode启动源码解析

400

22分9秒

173_尚硅谷_Hadoop_源码解析_DataNode启动源码解析

400

7分38秒

174_尚硅谷_Hadoop_源码解析_HDFS上传源码_整体介绍

370

10分12秒

175_尚硅谷_Hadoop_源码解析_HDFS上传源码_create

380

23分1秒

176_尚硅谷_Hadoop_源码解析_HDFS上传源码_write

400

21分20秒

177_尚硅谷_Hadoop_源码解析_Yarn源码解析

370

21分1秒

178_尚硅谷_Hadoop_源码解析_Hadoop源码编译

400

9分16秒

17_尚硅谷_Hadoop_入门_大数据技术生态体系

540

4分40秒

18_尚硅谷_Hadoop_入门_VMware安装

600

15分55秒

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装

520

10分49秒

20_尚硅谷_Hadoop_入门_IP和主机名称配置

540

100

9分4秒

21_尚硅谷_Hadoop_入门_Xshell远程访问工具

630

101

12分24秒

22_尚硅谷_Hadoop_入门_模板虚拟机准备完成

550

102

15分0秒

23_尚硅谷_Hadoop_入门_克隆三台虚拟机

480

103

7分0秒

24_尚硅谷_Hadoop_入门_JDK安装

460

104

7分19秒

25_尚硅谷_Hadoop_入门_Hadoop安装

560

105

11分55秒

26_尚硅谷_Hadoop_入门_本地运行模式

480

106

15分0秒

27_尚硅谷_Hadoop_入门_scp&rsync命令讲解

550

107

18分13秒

28_尚硅谷_Hadoop_入门_xsync分发脚本

460

108

11分24秒

29_尚硅谷_Hadoop_入门_ssh免密登录

410

109

13分22秒

30_尚硅谷_Hadoop_入门_集群配置

590

110

16分51秒

31_尚硅谷_Hadoop_入门_群起集群并测试

420

111

8分9秒

32_尚硅谷_Hadoop_入门_集群崩溃处理办法

410

112

5分24秒

33_尚硅谷_Hadoop_入门_历史服务器配置

410

113

5分41秒

34_尚硅谷_Hadoop_入门_日志聚集功能配置

430

114

9分17秒

35_尚硅谷_Hadoop_入门_两个常用脚本

430

115

4分14秒

36_尚硅谷_Hadoop_入门_两道面试题

520

116

11分26秒

37_尚硅谷_Hadoop_入门_集群时间同步

500

117

10分56秒

38_尚硅谷_Hadoop_入门_常见问题总结

460

118

4分22秒

39_尚硅谷_Hadoop_HDFS_课程介绍

400

119

4分10秒

40_尚硅谷_Hadoop_HDFS_产生背景和定义

480

120

5分26秒

41_尚硅谷_Hadoop_HDFS_优缺点

440

121

9分8秒

42_尚硅谷_Hadoop_HDFS_组成

530

122

8分0秒

43_尚硅谷_Hadoop_HDFS_文件块大小

410

123

9分47秒

44_尚硅谷_Hadoop_HDFS_Shell命令上传

440

124

16分40秒

45_尚硅谷_Hadoop_HDFS_Shell命令下载&直接操作

430

125

8分18秒

46_尚硅谷_Hadoop_HDFS_API环境准备

560

126

10分52秒

47_尚硅谷_Hadoop_HDFS_API创建文件夹

530

127

6分41秒

48_尚硅谷_Hadoop_HDFS_API上传

440

128

5分6秒

49_尚硅谷_Hadoop_HDFS_API参数的优先级

310

129

8分23秒

50_尚硅谷_Hadoop_HDFS_API文件下载

430

130

4分11秒

51_尚硅谷_Hadoop_HDFS_API文件删除

430

131

5分2秒

52_尚硅谷_Hadoop_HDFS_API文件更名和移动

400

132

7分56秒

53_尚硅谷_Hadoop_HDFS_API文件详情查看

390

133

3分19秒

54_尚硅谷_Hadoop_HDFS_API文件和文件夹判断

440

134

11分36秒

55_尚硅谷_Hadoop_HDFS_写数据流程

510

135

4分29秒

56_尚硅谷_Hadoop_HDFS_节点距离计算

450

136

6分6秒

57_尚硅谷_Hadoop_HDFS_机架感知（副本存储节点选择）

330

137

5分3秒

58_尚硅谷_Hadoop_HDFS_读数据流程

370

138

13分27秒

59_尚硅谷_Hadoop_HDFS_NN和2NN工作机制

390

139

9分32秒

60_尚硅谷_Hadoop_HDFS_FsImage镜像文件

390

140

4分48秒

61_尚硅谷_Hadoop_HDFS_Edits编辑日志

350

141

2分33秒

62_尚硅谷_Hadoop_HDFS_检查点时间设置

410

142

7分35秒

63_尚硅谷_Hadoop_HDFS_DN工作机制

390

143

7分6秒

64_尚硅谷_Hadoop_HDFS_数据完整性

420

144

4分43秒

65_尚硅谷_Hadoop_HDFS_掉线时限参数设置

470

145

3分43秒

66_尚硅谷_Hadoop_HDFS_总结

380

146

4分22秒

67_尚硅谷_Hadoop_MapReduce_课程介绍

360

147

9分58秒

68_尚硅谷_Hadoop_MapReduce_概述&优点缺点

420

148

9分41秒

69_尚硅谷_Hadoop_MapReduce_核心思想

350

149

7分6秒

70_尚硅谷_Hadoop_MapReduce_官方WC源码&序列化类型

380

150

7分7秒

71_尚硅谷_Hadoop_MapReduce_编程规范

400

151

6分55秒

72_尚硅谷_Hadoop_MapReduce_WordCount案例需求分析

420

152

4分9秒

73_尚硅谷_Hadoop_MapReduce_WordCount案例环境准备

360

153

14分13秒

74_尚硅谷_Hadoop_MapReduce_WordCount案例Mapper

360

154

8分45秒

75_尚硅谷_Hadoop_MapReduce_WordCount案例Reducer

430

155

10分58秒

76_尚硅谷_Hadoop_MapReduce_WordCount案例Driver

470

156

15分20秒

77_尚硅谷_Hadoop_MapReduce_WordCount案例Debug调试

370

157

12分41秒

78_尚硅谷_Hadoop_MapReduce_WordCount案例集群运行

500

158

6分29秒

79_尚硅谷_Hadoop_MapReduce_序列化概述

380

159

8分18秒

80_尚硅谷_Hadoop_MapReduce_自定义序列化步骤

450

160

9分8秒

81_尚硅谷_Hadoop_MapReduce_序列化案例需求分析

410

161

6分50秒

82_尚硅谷_Hadoop_MapReduce_序列化案例FlowBean

420

162

8分59秒

83_尚硅谷_Hadoop_MapReduce_序列化案例FlowMapper

420

163

4分49秒

84_尚硅谷_Hadoop_MapReduce_序列化案例FlowReducer

450

164

6分20秒

85_尚硅谷_Hadoop_MapReduce_序列化案例FlowDriver

400

165

7分53秒

86_尚硅谷_Hadoop_MapReduce_序列化案例debug调试

350

166

15分18秒

87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

360

167

20分33秒

88_尚硅谷_Hadoop_MapReduce_Job提交流程

320

168

19分16秒

89_尚硅谷_Hadoop_MapReduce_切片源码

380

169

4分59秒

90_尚硅谷_Hadoop_MapReduce_切片源码总结

530

170

3分13秒

91_尚硅谷_Hadoop_MapReduce_FileInputFormat切片机制

370

171

4分38秒

92_尚硅谷_Hadoop_MapReduce_TextInputFormat

430

172

10分17秒

93_尚硅谷_Hadoop_MapReduce_CombineTextInputFormat

320

173

16分42秒

94_尚硅谷_Hadoop_MapReduce_MapReduce工作流程

450

174

6分21秒

95_尚硅谷_Hadoop_MapReduce_Shuffle机制

390

175

12分49秒

96_尚硅谷_Hadoop_MapReduce_默认HashPartitioner分区

450

176

7分19秒

97_尚硅谷_Hadoop_MapReduce_自定义分区案例

370

177

7分19秒

98_尚硅谷_Hadoop_MapReduce_分区数与Reduce个数的总结

360

178

14分13秒

99_尚硅谷_Hadoop_MapReduce_排序概述

400

165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐