文章/答案/技术大牛

发布

首页视频87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

2022-12-022022-12-02 16:02:19播放36

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hadoop3.x/视频/87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来我们看一下第三张MAP6框架原理，那这一张呢，是MAP6当中最核心的一块了啊。那大家都知道啊，Map reduce呢，分两个阶段，一个呢是map阶段，另一个叫reduce阶段，那map阶段呢，我们一般统称为map test测，那reduce阶段呢，是reduce test测，比如说map阶段的任务，Reduce阶段的任务，那在map阶段它处理什么事呢？它主要处理的是根据你的数据源，对吧，你数据往这一放，那我可以选择用什么方式来读取你这个数据。啥叫用什么方式呢？那还记得吗？咱们默认的读取这个输入的文件，是不是按行读啊？对吧，哎，它的KV一个呢是偏移量，另一个呢是这一行内容，哎，一行一行去读取。那是不是所有的这个读取方式只能按照这个K是偏移量，V是一行呢？不是，哎，这里面就有一个组件叫input format，它可以对这个输入进行一个控制。
01:02
你说这里面我可以用这个fair input，还可以用test combine test，还有还有这个。啊，以前还有这个像什么k value啊，K value还有on online啊等等啊，那个叫我删掉了啊，因为在群里面用的不是特别多啊，但是呢，它的这个实现类啊，有非常多的这种啊处理方式可以来读取数据源。好，那这那这个数据源读进来之后，那么就把它交给这个map进行后续业务逻辑的一个处理，那这里面是用户要写的业务逻辑。好，那接下来进入到reduce阶段。那reduce阶段呢？哎，首先由这个reduce来拉取map阶段。处理完的数据，哎，是主动拉啊，后面会详细说哎那拉其实这个过程当中啊，中间要经历一个杀发的过程，哎沙发是一个非常复杂的过程啊，在这里面要进行排序。可以进行分区，还可以进行压缩。
02:02
哎，还可以进行合并，哎等等很多事情都会在这个S里面去讲，而且是咱们外六当中最核心的就是它，那我们后面再说啊，嗯，再往下reducer处理完之后，我想输出到哪。那这块我们也能够进行对它进行控制，叫output ma，它也有很多种实现类，比如说我现在啊，这个output输出的都是写到文件里面。对吧，那大家有没有思考过说我不想写在文件里面，我能不能写到。对应的其他数据库，比如说我写到买里面行不行。对吧，哎，我或者我写到后面我要学的h base。觉得ES。哎，我写到其他框架里面行不行呢？哎，只要有了这个out book map，我可以对它进行自定义。去实现，包括前面这个input也可以进行自定义。实现我们想要的功能啊，然后S当中中间这些变换啊，排序，我们也可以对它进行一个重新排序。
03:05
啊，分组排序。还可以进行啊，分区压缩啊，合并等等。每一个细节都能够进行根据用户的需求进行灵活调整。啊好，那我们先学哪呢？哎，我们学习的顺序啊，先学这个input map，再学呢suffer，再学out，就按照这个数据流的方向一点点往后给大家讲啊行，那首先我们来看一下第一个问题，说input数据的一个输入啊，切片呢，与map task并行度决定机制，上来一看，上来来一个新单词叫切片。啊，切片这个词呢，你先不懂，一会儿给大家讲啊，那与map task的一个并行度，那map task的并行度是什么含义？什么叫map test并行度啊，就说你前面啊，我画张图。那我们画一下图，假如说这里面有一堆数据。
04:03
是吧，哎，数据什么宋送啊，嗯，苍老师，嗯杨哥波波吧，是吧？哎，这些数据你有了这些数据，那好，那下面你派了多少个人来干活呢？比如说你需要开启多少个map task来处理这个数据呢？对吧，哎，一个。两个。三个还是多少个？这这个意思，那好，那我这里面开启的这个map test越多。是不是就是我处理的速度就是并发度要高一些。镜像我的map个数。个数决定。了我。并行度，并行度啊好，因为你看我这个三个map test之间是不误进行相互通讯啊，各干各的，比如说我这个map test，我处理这部分数据你给我了。
05:10
然后呢，下一个map处理这部分数据，你再给我最后这一部分给他。相互之间并不进行信息的一个交互，那我我这个map test个数是不是越多越好呢？大家思考问题是不是越多越好。那假如说我这个数据量现在是一个G的数据。那是我我我开三个，那我再加一个。效率大家能感觉到是吧，哎，可能会快一些，那好，那我再思考一下，我这一个G的数据，我变了，我不用一个G数据了，我说啊，这里面是1KB数据。然后再来再小可能说嗯，这里面是8B。哎，八个字节。那你觉得我还要开这么多吗？好像也不太合适，也就是说这个map task并不是越多越好，因为你的数据量，比如说已经到了这个1KB这种这种级别了，你再开八个这个map task。
06:08
你觉得会出现什么情况？你开启每个map test的时间都比你计算任务的时间都长了。因为开启map task需要一些前置准备工作，对吧，还需要呃内存的一个初始化。啊，然后初始化完毕之后，咔，一秒钟结束了，那么典型的宋老师嘛，对不对，哎，前期这个准备工作啊，做了一个健一顿健身啊，健身了十分钟，结果呢，啊一上战场啊，三秒钟结束。你这个就有点儿这个呃，得不偿失了是吧？哎，所以说这个就会有一个问题呢，并不是map test的个数越多越好，也不是越少越好，那到底多少合适呢？哎，我们来看一下。说map并行度决定机制，也就说设置多少合适，首先看第一个概念叫数据块。Block呢是ATS啊，物理上把数据分成一块一块，数据块呢是as的中种单元，这个块的概念大家应该有印象吗？大家复习一下，还记得它吧？哎，你点开这里面，是不是在将这个嗨豆架包分成了三块啊，还三块，而且这三块之间。
07:15
有什么相互联系吗？就从这个存储位置上。有联系吗？我第一块存在这，我第二块是完全可以存在103上。比如说你这块在102啊，啊这块103，那我这个呢是104。我可以分别去存，假如说我要设成一个副本的话。我可以分别继承。存在不同机器。好，那它就是物理上的一个切割吧。对吧，哎，你这个块啊，是纯HD Fi上物理的一个切割，那我们一般是多大一块，128兆一块。哎，物理仓的存储好，那数据切片是什么意思？数据切片呢？只是在逻辑上对输入的数据进行分片。并不会在磁盘上将其分成，呃，这个分片进行一个存储。
08:05
数据切片是MAP6计算输入的数据单元，一个切片呢，对应启动一个map task啊，啥意思啊，给大家举个例子。现在啊，这还是呃，数据我这个呢，变成128啊，我129兆好。我129兆的数据，我在物理上会怎么存？比如说我在ad上怎么存呢？他是不是这样存呢。128。然后再来一块。他会怎么说呢？还会这。对吧，哎，物理上它是这样的一个存储，哎，这个呢，可能在102，这可能在103，那么什么叫切片呢？逻辑上的存储呢？逻辑上的存储它只是比如说开一个T，它会记录说从零。
09:06
到128这个索引对吧？啊，物理上的地址，那这个呢，是一片记录上来，然后第二片呢，是从128~129啊，然后所以。是一点，哎，我这只是一个记录。对吧，我并没有把它这个数据啊，真正的去切割，你看我去切割了吗？我只是说记录一下啊，零到128呢，你要按一片处理，那128~129按一片处理。那我说的单位是兆对吧，那但是我这个呢，是实实在在的改变了它物理的存储，这叫物理存储。好，那我下边呢，这个叫逻辑存储。
10:01
哎，能理解了吧，啊，这是这块好，那懂了这个概念之后啊，那下面我们来看一下下面这道啊PPT啊。再来看一下我们的这个送送点avi，它有零到300兆啊，就是300兆的一个数据，那300兆的数据呢，我集群上目前有DATE1 date2 date33台服务器，那它在集群上的这个块的存储呢？哎，DATE01，哎上呢，存储的是128兆，那DATE2呢，存储的也是128兆，只不过呢是第二块开始，那date的零三上存储的这是多少？300减二百五六，嗯，是44兆，对吧？哎，44兆，OK，这么大存储空间。那存储完了之后，那下面。你如何来分配这个任务？啥意思，就说我要启动多少个map task来执行啊，对吧？哎，假设呢，假设我这个切片我按100兆去切，因为我想了你这是300兆，我可以开启三个麦菜车，我希望让他们每个人都尽量的均匀一些，这是不是我们直观的想法？
11:04
对吧，因为你这是300兆的一个数据嘛，我除以三这不很正常吗？对吧？哎，这个每人干100兆很公平，哎，但是你现在想的啊，是很公平，但是你看啊看看什么情况呢？第一个map test，它处理这128兆数据，从零到100兆没问题，都在本地吧，都在当前这台服务器上。但是到了这个map task2的时候，你看它怎么处理数据，它处理的数据是这里面有28兆数据，这里面还要拿72兆。对吧，那这72兆没问题，很快在本地拿出来了，那这这28兆呢。你是要跨服务器的一个通讯呢。那么这个效率怎么样？哎，效率就比较慢了，哎，你每次都跨节点进行通讯，而且这两块还要拼在一起进行处理。那就会比较麻烦，那接下来你看看第三个ma它又怎么处理。
12:01
那它处理的剩下56兆，加上你这个44兆，我说这样就处理。哎，同样这40兆没问题，在本地执行，那你第二个第三个ma test，它仍然需要跨节点进行一个通讯。效率非常低下。那好，那不这么切，能不能有更高效的处处理办法呢？好，按切片大小128兆进行切片。那我就会将数据切成128 256，还剩40兆。对吧，那好，那第一个卖太处理这零到128都在本地吧，哎，这个数据都在本地，那好，那第二块呢，第二块128到二百五六是不是也在本地，是不是也由他由他来处理，那剩下的事上。MA3由他来处理，那是不是也是在本地处理，那本地的计算速度是最快。节点距离最近吗？哦，那也就是说我们得出个结论啊，这个map test啊，按照这个切片大小进行处理数据最好啊，就说切片大小设置128，跟你这个块大小保持一致。
13:07
那我这里面计算的这个效率最高，那好。说一个job的map阶段并行度由客户端提交job时的切片数决定，比如说你切了多少片，我就开启多少个map task啊。再来每一个切片分配一个map test，对吧，你切出来一个128 128，那我就来一个map test。再往后找，默认情况下切片大小等于块大小。记住这里面是默认情况下是切片大小等于块大小，那当然隐含之意就是它可以进行一个后配置。那后面会教大家哎如何来配置啊，一会儿呢，我们就看源码哈。这回来切片时不考虑数据集整体，而是逐个对每一个文件单独切片。
14:00
这个很重要，我现在呢是一个送送点avi对吧，那好，我接下来我再来一个送送2.avi。这是两个文件。那有同学该想了啊，那既然你按照切片切，那切吧，那我是不是我把300兆加上100兆变成400兆，然后再128兆，128兆的切呢。是不是这样呢？不是，你看这句话叫每个文件单独切片。我不管你提交的是几个文件，那我都是按照，诶，你这个文件单独切，你这个文件单独切。你上面切了三片，那你这个切一片。哎，不会说按照你这个400兆统一去写。啊，没有这个概念啊，是以文件为单位，那你看那这边再开一个对诺斯，它就是专门处理这100兆数据。哎，这就是这个数据切片和map test的一个并行度决定机制，那这里面大家要重点记住的就是默认情况下切片大小和块大小是相等的。然后我们按照切片的个数来开启ma test的个数，你切了多少片，你就开启多少个ma test，而且还有一点呢，就是每个文件单独切很重要。
15:12
哎，单独去计算，不要把它合在一起。行，那这个我们先了解到这儿，后面呢，我们来看源码。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hadoop3.x

（166/178）

8分30秒

01_尚硅谷_Hadoop_开篇_课程整体介绍

670

4分33秒

02_尚硅谷_Hadoop_概论_大数据的概念

610

7分21秒

03_尚硅谷_Hadoop_概论_大数据的特点

460

9分57秒

04_尚硅谷_Hadoop_概论_大数据的应用场景

410

8分16秒

05_尚硅谷_Hadoop_概论_大数据的发展场景

380

6分24秒

06_尚硅谷_Hadoop_概论_未来工作内容

390

7分28秒

07_尚硅谷_Hadoop_入门_课程介绍

450

2分59秒

08_尚硅谷_Hadoop_入门_Hadoop是什么

470

5分50秒

09_尚硅谷_Hadoop_入门_Hadoop发展历史

470

15分24秒

100_尚硅谷_Hadoop_MapReduce_全排序案例

510

3分6秒

101_尚硅谷_Hadoop_MapReduce_二次排序案例

360

6分52秒

102_尚硅谷_Hadoop_MapReduce_区内排序案例

350

7分17秒

103_尚硅谷_Hadoop_MapReduce_Combiner概述

430

12分32秒

104_尚硅谷_Hadoop_MapReduce_Combiner案例

490

3分41秒

105_尚硅谷_Hadoop_MapReduce_outputformat概述

330

4分21秒

106_尚硅谷_Hadoop_MapReduce_自定义outputformat案例需求分析

310

4分32秒

107_尚硅谷_Hadoop_MapReduce_自定义outputformat案例mapper&reducer

390

12分31秒

108_尚硅谷_Hadoop_MapReduce_自定义outputformat案例执行

470

3分45秒

109_尚硅谷_Hadoop_MapReduce_MapTask工作机制

330

5分57秒

10_尚硅谷_Hadoop_入门_Hadoop三大发行版本

420

8分59秒

110_尚硅谷_Hadoop_MapReduce_ReduceTask工作机制&并行度

410

16分56秒

111_尚硅谷_Hadoop_MapReduce_MapTask源码

460

15分23秒

112_尚硅谷_Hadoop_MapReduce_ReduceTask源码

450

9分21秒

113_尚硅谷_Hadoop_MapReduce_ReduceJoin案例需求分析

390

7分7秒

114_尚硅谷_Hadoop_MapReduce_ReduceJoin案例TableBean

450

12分33秒

115_尚硅谷_Hadoop_MapReduce_ReduceJoin案例Mapper

370

12分26秒

116_尚硅谷_Hadoop_MapReduce_ReduceJoin案例完成

530

4分14秒

117_尚硅谷_Hadoop_MapReduce_ReduceJoin案例debug

380

6分56秒

118_尚硅谷_Hadoop_MapReduce_MapJoin案例需求分析

490

13分9秒

119_尚硅谷_Hadoop_MapReduce_MapJoin案例完成

400

3分51秒

11_尚硅谷_Hadoop_入门_Hadoop优势

400

2分48秒

120_尚硅谷_Hadoop_MapReduce_MapJoin案例debug

400

15分10秒

121_尚硅谷_Hadoop_MapReduce_ETL数据清洗案例

450

10分49秒

122_尚硅谷_Hadoop_MapReduce_MapReduce开发总结

380

16分4秒

123_尚硅谷_Hadoop_MapReduce_压缩概述

300

10分21秒

124_尚硅谷_Hadoop_MapReduce_压缩案例实操

330

5分18秒

125_尚硅谷_Hadoop_Yarn_课程介绍

400

4分55秒

126_尚硅谷_Hadoop_Yarn_基础架构

440

6分42秒

127_尚硅谷_Hadoop_Yarn_工作机制

400

3分35秒

128_尚硅谷_Hadoop_Yarn_全流程作业

340

4分17秒

129_尚硅谷_Hadoop_Yarn_FIFO调度器

380

2分59秒

12_尚硅谷_Hadoop_入门_Hadoop1.x2.x3.x区别

440

10分23秒

130_尚硅谷_Hadoop_Yarn_容量调度器

370

19分24秒

131_尚硅谷_Hadoop_Yarn_公平调度器

480

14分48秒

132_尚硅谷_Hadoop_Yarn_常用命令

500

10分25秒

133_尚硅谷_Hadoop_Yarn_生产环境核心参数配置

350

4分14秒

134_尚硅谷_Hadoop_Yarn_Linux集群快照

380

15分30秒

135_尚硅谷_Hadoop_Yarn_生产环境核心参数配置案例

330

5分42秒

136_尚硅谷_Hadoop_Yarn_生产环境多队列创建&好处

360

12分39秒

137_尚硅谷_Hadoop_Yarn_容量调度器多队列案例

370

6分50秒

138_尚硅谷_Hadoop_Yarn_容量调度器任务优先级

350

15分5秒

139_尚硅谷_Hadoop_Yarn_公平调度器案例

360

6分24秒

13_尚硅谷_Hadoop_入门_HDFS概述

470

5分11秒

140_尚硅谷_Hadoop_Yarn_Tool接口案例环境准备

370

19分14秒

141_尚硅谷_Hadoop_Yarn_Tool接口案例完成

430

10分25秒

142_尚硅谷_Hadoop_Yarn_课程总结

420

14分13秒

143_尚硅谷_Hadoop_生产调优手册_核心参数_NN内存配置

240

3分11秒

144_尚硅谷_Hadoop_生产调优手册_核心参数_NN心跳并发配置

330

7分15秒

145_尚硅谷_Hadoop_生产调优手册_核心参数_开启回收站

370

5分54秒

146_尚硅谷_Hadoop_生产调优手册_HDFS压测环境准备

390

18分53秒

147_尚硅谷_Hadoop_生产调优手册_HDFS读写压测

400

8分24秒

148_尚硅谷_Hadoop_生产调优手册_NN多目录配置

280

8分41秒

149_尚硅谷_Hadoop_生产调优手册_DN多目录及磁盘间数据均衡

350

6分34秒

14_尚硅谷_Hadoop_入门_YARN概述

400

10分0秒

150_尚硅谷_Hadoop_生产调优手册_添加白名单

350

13分6秒

151_尚硅谷_Hadoop_生产调优手册_服役新服务器

370

3分16秒

152_尚硅谷_Hadoop_生产调优手册_服务器间数据均衡

340

7分45秒

153_尚硅谷_Hadoop_生产调优手册_黑名单退役服务器

330

11分20秒

154_尚硅谷_Hadoop_生产调优手册_存储优化_5台服务器准备

390

8分15秒

155_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码原理

320

10分40秒

156_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码案例

390

8分34秒

157_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储概述

430

17分39秒

158_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储案例实操

380

9分8秒

159_尚硅谷_Hadoop_生产调优手册_NameNode故障处理

430

1分54秒

15_尚硅谷_Hadoop_入门_MapReduce概述

500

18分31秒

160_尚硅谷_Hadoop_生产调优手册_集群安全模式&磁盘修复

360

9分18秒

161_尚硅谷_Hadoop_生产调优手册_慢磁盘监控

420

8分10秒

162_尚硅谷_Hadoop_生产调优手册_小文件归档

410

3分17秒

163_尚硅谷_Hadoop_生产调优手册_集群数据迁移

340

2分42秒

164_尚硅谷_Hadoop_生产调优手册_MR跑的慢的原因

370

12分25秒

165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

390

5分25秒

166_尚硅谷_Hadoop_生产调优手册_MR数据倾斜问题

410

1分17秒

167_尚硅谷_Hadoop_生产调优手册_Yarn生产经验

370

10分13秒

168_尚硅谷_Hadoop_生产调优手册_HDFS小文件优化方法

340

2分52秒

169_尚硅谷_Hadoop_生产调优手册_MapReduce集群压测

350

3分21秒

16_尚硅谷_Hadoop_入门_HDFS&YARN&MR关系

420

14分59秒

170_尚硅谷_Hadoop_生产调优手册_企业开发场景案例

390

13分43秒

171_尚硅谷_Hadoop_源码解析_RPC通信原理解析

320

21分36秒

172_尚硅谷_Hadoop_源码解析_NameNode启动源码解析

400

22分9秒

173_尚硅谷_Hadoop_源码解析_DataNode启动源码解析

400

7分38秒

174_尚硅谷_Hadoop_源码解析_HDFS上传源码_整体介绍

370

10分12秒

175_尚硅谷_Hadoop_源码解析_HDFS上传源码_create

380

23分1秒

176_尚硅谷_Hadoop_源码解析_HDFS上传源码_write

400

21分20秒

177_尚硅谷_Hadoop_源码解析_Yarn源码解析

370

21分1秒

178_尚硅谷_Hadoop_源码解析_Hadoop源码编译

400

9分16秒

17_尚硅谷_Hadoop_入门_大数据技术生态体系

540

4分40秒

18_尚硅谷_Hadoop_入门_VMware安装

600

15分55秒

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装

520

10分49秒

20_尚硅谷_Hadoop_入门_IP和主机名称配置

540

100

9分4秒

21_尚硅谷_Hadoop_入门_Xshell远程访问工具

630

101

12分24秒

22_尚硅谷_Hadoop_入门_模板虚拟机准备完成

550

102

15分0秒

23_尚硅谷_Hadoop_入门_克隆三台虚拟机

480

103

7分0秒

24_尚硅谷_Hadoop_入门_JDK安装

460

104

7分19秒

25_尚硅谷_Hadoop_入门_Hadoop安装

560

105

11分55秒

26_尚硅谷_Hadoop_入门_本地运行模式

480

106

15分0秒

27_尚硅谷_Hadoop_入门_scp&rsync命令讲解

550

107

18分13秒

28_尚硅谷_Hadoop_入门_xsync分发脚本

460

108

11分24秒

29_尚硅谷_Hadoop_入门_ssh免密登录

410

109

13分22秒

30_尚硅谷_Hadoop_入门_集群配置

590

110

16分51秒

31_尚硅谷_Hadoop_入门_群起集群并测试

420

111

8分9秒

32_尚硅谷_Hadoop_入门_集群崩溃处理办法

410

112

5分24秒

33_尚硅谷_Hadoop_入门_历史服务器配置

410

113

5分41秒

34_尚硅谷_Hadoop_入门_日志聚集功能配置

430

114

9分17秒

35_尚硅谷_Hadoop_入门_两个常用脚本

430

115

4分14秒

36_尚硅谷_Hadoop_入门_两道面试题

520

116

11分26秒

37_尚硅谷_Hadoop_入门_集群时间同步

500

117

10分56秒

38_尚硅谷_Hadoop_入门_常见问题总结

460

118

4分22秒

39_尚硅谷_Hadoop_HDFS_课程介绍

400

119

4分10秒

40_尚硅谷_Hadoop_HDFS_产生背景和定义

480

120

5分26秒

41_尚硅谷_Hadoop_HDFS_优缺点

440

121

9分8秒

42_尚硅谷_Hadoop_HDFS_组成

530

122

8分0秒

43_尚硅谷_Hadoop_HDFS_文件块大小

410

123

9分47秒

44_尚硅谷_Hadoop_HDFS_Shell命令上传

440

124

16分40秒

45_尚硅谷_Hadoop_HDFS_Shell命令下载&直接操作

430

125

8分18秒

46_尚硅谷_Hadoop_HDFS_API环境准备

560

126

10分52秒

47_尚硅谷_Hadoop_HDFS_API创建文件夹

530

127

6分41秒

48_尚硅谷_Hadoop_HDFS_API上传

440

128

5分6秒

49_尚硅谷_Hadoop_HDFS_API参数的优先级

310

129

8分23秒

50_尚硅谷_Hadoop_HDFS_API文件下载

430

130

4分11秒

51_尚硅谷_Hadoop_HDFS_API文件删除

430

131

5分2秒

52_尚硅谷_Hadoop_HDFS_API文件更名和移动

400

132

7分56秒

53_尚硅谷_Hadoop_HDFS_API文件详情查看

390

133

3分19秒

54_尚硅谷_Hadoop_HDFS_API文件和文件夹判断

440

134

11分36秒

55_尚硅谷_Hadoop_HDFS_写数据流程

510

135

4分29秒

56_尚硅谷_Hadoop_HDFS_节点距离计算

450

136

6分6秒

57_尚硅谷_Hadoop_HDFS_机架感知（副本存储节点选择）

330

137

5分3秒

58_尚硅谷_Hadoop_HDFS_读数据流程

370

138

13分27秒

59_尚硅谷_Hadoop_HDFS_NN和2NN工作机制

390

139

9分32秒

60_尚硅谷_Hadoop_HDFS_FsImage镜像文件

390

140

4分48秒

61_尚硅谷_Hadoop_HDFS_Edits编辑日志

350

141

2分33秒

62_尚硅谷_Hadoop_HDFS_检查点时间设置

410

142

7分35秒

63_尚硅谷_Hadoop_HDFS_DN工作机制

390

143

7分6秒

64_尚硅谷_Hadoop_HDFS_数据完整性

420

144

4分43秒

65_尚硅谷_Hadoop_HDFS_掉线时限参数设置

470

145

3分43秒

66_尚硅谷_Hadoop_HDFS_总结

380

146

4分22秒

67_尚硅谷_Hadoop_MapReduce_课程介绍

360

147

9分58秒

68_尚硅谷_Hadoop_MapReduce_概述&优点缺点

420

148

9分41秒

69_尚硅谷_Hadoop_MapReduce_核心思想

350

149

7分6秒

70_尚硅谷_Hadoop_MapReduce_官方WC源码&序列化类型

380

150

7分7秒

71_尚硅谷_Hadoop_MapReduce_编程规范

400

151

6分55秒

72_尚硅谷_Hadoop_MapReduce_WordCount案例需求分析

420

152

4分9秒

73_尚硅谷_Hadoop_MapReduce_WordCount案例环境准备

360

153

14分13秒

74_尚硅谷_Hadoop_MapReduce_WordCount案例Mapper

360

154

8分45秒

75_尚硅谷_Hadoop_MapReduce_WordCount案例Reducer

430

155

10分58秒

76_尚硅谷_Hadoop_MapReduce_WordCount案例Driver

470

156

15分20秒

77_尚硅谷_Hadoop_MapReduce_WordCount案例Debug调试

370

157

12分41秒

78_尚硅谷_Hadoop_MapReduce_WordCount案例集群运行

500

158

6分29秒

79_尚硅谷_Hadoop_MapReduce_序列化概述

380

159

8分18秒

80_尚硅谷_Hadoop_MapReduce_自定义序列化步骤

450

160

9分8秒

81_尚硅谷_Hadoop_MapReduce_序列化案例需求分析

410

161

6分50秒

82_尚硅谷_Hadoop_MapReduce_序列化案例FlowBean

420

162

8分59秒

83_尚硅谷_Hadoop_MapReduce_序列化案例FlowMapper

420

163

4分49秒

84_尚硅谷_Hadoop_MapReduce_序列化案例FlowReducer

450

164

6分20秒

85_尚硅谷_Hadoop_MapReduce_序列化案例FlowDriver

400

165

7分53秒

86_尚硅谷_Hadoop_MapReduce_序列化案例debug调试

350

166

15分18秒

87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

360

167

20分33秒

88_尚硅谷_Hadoop_MapReduce_Job提交流程

320

168

19分16秒

89_尚硅谷_Hadoop_MapReduce_切片源码

380

169

4分59秒

90_尚硅谷_Hadoop_MapReduce_切片源码总结

530

170

3分13秒

91_尚硅谷_Hadoop_MapReduce_FileInputFormat切片机制

370

171

4分38秒

92_尚硅谷_Hadoop_MapReduce_TextInputFormat

430

172

10分17秒

93_尚硅谷_Hadoop_MapReduce_CombineTextInputFormat

320

173

16分42秒

94_尚硅谷_Hadoop_MapReduce_MapReduce工作流程

450

174

6分21秒

95_尚硅谷_Hadoop_MapReduce_Shuffle机制

390

175

12分49秒

96_尚硅谷_Hadoop_MapReduce_默认HashPartitioner分区

450

176

7分19秒

97_尚硅谷_Hadoop_MapReduce_自定义分区案例

370

177

7分19秒

98_尚硅谷_Hadoop_MapReduce_分区数与Reduce个数的总结

360

178

14分13秒

99_尚硅谷_Hadoop_MapReduce_排序概述

400

87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐