文章/答案/技术大牛

发布

首页视频99_尚硅谷_Hadoop_MapReduce_排序概述

99_尚硅谷_Hadoop_MapReduce_排序概述

2022-12-022022-12-02 16:02:19播放40

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hadoop3.x/视频/99_尚硅谷_Hadoop_MapReduce_排序概述.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们给大家讲一下这个排序啊呃，讲排序之前呢，我们先看一下这个Mars这个流程，还记不记得这里面的一些过程啊。当时啊，咱们说这个欢迎往城区，哎，我快速把前面这个过了哈。在还原缓冲区溢血之前，是不是要对这个数据进行一个快排呀？还记得吗，这个地方。啊，这个快盘，然后呢，它会产生多次的一写文件。那多次的一些文件，我们需要对它再进行一次规定啊，也就是说在整个map map6当中，Map阶段它执行了两次排序，分别是在环形缓冲区溢写之前进行了一次快排，那这里面是对谁排？还记得吧，对key的索引排序按照什么顺序排，按照字典顺序排，OK，那对一写文件呢，我们又再次进行了一次诶末结合并操作。我把这里面啊，截张图吧。
01:00
我截张图哈，后面以备待用。从这截就可以了。好，这是其中一个定图，然后接下来呢，我们来看一下这个radio阶段我们进行了几次排序。Reduce阶段是map阶段结束之后，Reduce呢主动的去拉取对应的数据，那他拉取自己分区的数据过来之后，他需要对拉取过来的数据进行一次归并排序。对吧，哎，归并排序。OK，那么规定排完序之后，如果说他想控制这个后续，那也说对这个key里面的内容再进行一个排序，其实也是可以的，那这块呢，是可以进行一次叫分组排序，但是啊啊，由于我们二六程序写的已经比较少了啊，所以说这个复杂的这种分组排序啊功能啊，嗯，这次呢，我们也把它删掉了啊，因为在开发中用的非常少啊。行，那你就记住一次就行了，记住有一次归并，这是系统自带的，那当然了，我们也可以进行自定义啊。
02:03
OK，那这个呢，我再定一张图。拿过来。啊，也就是说现在我们总结完之后啊，在这个map阶段进行了两次快排和归并，在review阶段进行了一次归并。好，那接下来我们就来全力以赴研究一下对应的这个排序。首先这句话排序呢，是MAP6的框架当中非常重要的一个操作之一，可以这么说啊，分区和排序。呃，在面试啊，还是开发的时候，如果你用到你的概率啊，会非常非常高啊。再往下，下面呢，这句话看一下叫map reduce map task和reduce task均会对数据按照K进行排序。该操作呢，属于hi默认行为。这个很重要哈，也就是说，呃，不管你是map test还是test，它的key必须可以进行排序。如果不进不能够支持排序的话，那么还多这框架直接报错了。
03:03
比如说海哥，我就想这个不排序啊，行不行不行啊，除非你自己再写个框架啊，这个要注意啊，任何应用程序均会被排序，不管逻辑上是否需要，你说不管你要不要啊，反正我就给你排了，那大家思考一下，为什么一定要对它进行排序呢？有没有想过？你说这，这不是给自己找麻烦呢吗？啊，原因在这啊，如果你前面这个数据不排序的话。你看到这块。咱们reduce reduce这块。呃，最终是把相同key的内容是不是进入到里面。如果你在前面不经过一系列的这个排序操作，那你到这儿，那就有可能是A，下一个是C，再来一个呢是E，然后又来一个A，又来一个C。那你每次将相同的key进入到reduce里面的时候。你是不是得一个一个去判断它是否是相同的K。那你觉得效率高吗？那反观我们现在，我们现在呢是。
04:05
把相同的K数已经排好序放在一起了。那我只需要跟下一个去比较，跟我当前的K是否一样。如果一样，那就是相同K不一样，直接就把这一组拿走，进入道里就行。是不是效率更高一些？啊，这个呢，有的时候面试官还真问说我们这个，呃，MA60当中这个key为什么一定要排序，原因就在这儿，为了提高箱的效率啊。下面说诶默认排序啊，是按照质点排序啊，而且呢，该排序的方法呢，是快排，这个说的是map test阶段这块。对吧，哎，按照这个ABC啊D这种方式进行排序，排序手段呢是快排，那对呢，是对K的索引进行排序。好，这是第一个概念了解，那接下来呢，再来看一下文字描述啊。这个。的，对于map task，它会将处理的结果呀，暂时放放到这个环形缓冲区当中，当环形缓冲区使用率达到一定阀之后，再对环形缓冲区的数据进行一个快排，那这个呢，大家一定要注意哈比就说不是你进来一条数据，我就一定对你先排序。
05:16
它是啊，到达一定阀值之后，要往磁盘上溢写之前进行一次排序啊，那这个排序的过程呢，是在内存当中完成的。OK吧，这个要理解。呃，然后一些，呃，而当数据处理完毕之后，他对磁盘上的所有文件再进行一次归并，那所说的归并呢，是这块，比如说这里面产生了大量一些文件。那我们需要对一写的文件按照指定的分区进行合并汇总。合并汇总。这就是map阶段，两次排序说的就是这个事儿，那接下来我们看一下radio阶段。对于radio，它从每个map task远程拷贝相应的数据，这个注意啊，是远程拷贝，或者你说拉取也可以，不是这个map主动来推，如果文件大小超过一定阀值，则一写到磁盘，否则存储在内存当中，啥意思呢？你从远程拉过来的数据啊，我先放到内存，内存不够的情况下，我会放到磁盘上。
06:17
这很显然的道理啊，放到内存计算速度快呀，你直接放到磁盘那速度多慢呢？但是有的时候这个嗯，想法很好，现实很怪，我的内存啊非常少，那存不下了怎么办？那存不下只能存在内存呗，啊，存在这个磁盘呗，嗯，那个道理是一样的啊。将如果磁盘上的文件呃达到一定阀值，则进行一次归并，生成一个更大的一个文件啊，如果内存中文件大小或者数目超过一定阀值，则会进行一次合并，将它一写到磁盘，啥意思呢？你说啊，最终啊，其实是不管你在内存当中的数据还是在磁盘当中的数据，我都要进行一次统一的。规定啊，规定排序，为啥要统一规定排序啊，啊，还是那道理，因为我们是将相同的key要传输到reduce方法里面去，那你只有统一的全都排好序，那你这个效率才能是最高的，否则的话，你得每一次这个获取K都要便利所有，那你如果这是11个K呢？
07:14
每次要遍历11遍对不对？嗯，这个得不偿失啊，好，这是呃，Map text和TEXT3次排序一定要记住，那当然如果你说还能还有一个分组啊，那有的面试官啊认这个分组啊，有的不认啊，为什么说认呢？嗯，认呢是因为它是一个自定义的，而且也能实现排序，那不认的道理呢，是因为它不是系统这个默认给你实现的这个排序功能啊，默认的排序功能呢，就是在map阶段，嗯，快排归并，Radio阶段归并。对吧，这个怎么说的都有啊。嗯，反正不管怎么说，你知道有这个事儿就可以了。下面我们来看另一个概念，叫。部分排序什么叫部分排序呢？Webs可以根据输入的记录的键对数据进行排序啊，都是key呗，哎，保证输出的每个文件内部有序。
08:08
那还记得咱们那个手机号吗？手机号1361个分区，137138139，然后其他。对吧，它的什么含义呢？它要求啊，你每输出的一个文件内部游戏，诶你这一个文件有游戏就行了，你比如136的手机号按照什么什么顺序金牌就可以，那另一个呢，是137，哎你内部按照比如说按照总总流量嘛，啊来一个倒叙，我们后面一个案例就这样要138啊倒序。哎，这叫部分排序。那再来一个。全排序。什么叫全排序呢？说最终输出结果只有一个文件且内部有序，那就像我们第一次统计word的时候，我所有的单词都会进入到这一个PART0这个文件里面。那在这个文件内部，我要求所有内容有序。那记住哈，这种情况下，在生产环境下呢，一定是要慎用的，为什么要慎用啊，在生产环境下这个数据量会非常非常大。
09:05
可能会有十几个T。对吧，啊，甚至十几个PB。都有可能，如果你把所有的数据都聚合到一个reduce里面，那你觉得reduce能处理的了吗？对吧？哎，所以说在企业里面啊，进行全排序的可能性其实不太大啊，通常是怎么排序呢？就按照分区内排序，比如说上面这个排序会用的比较多。比如说某一个地区，哎，这个销售额前十的。对吧，比如说东北地区销售前十，呃，华北地区销售前十一般呢，像这个呃，双11啊，或者618的时候，对吧？啊，都有这种排行榜啊，或者说这个北京人呃，这个喜欢的十种食物，最受欢迎的十种食物啊，什么广东最受欢迎的十种食物诶等等这种这个例子比较多哈，他不会说啊，这个全国所有人。他的一个啊，销售情况咔列一个大单，这个没有意义，那所有人数据都进入到一个大榜单里面，那完了。
10:01
嗯，而且你也不利于你也没你也没法看呢，你光看那个十三亿十四亿人。对吧，那你得看到啥时候去，得看好几年，意义不大啊。那接下来往下看，还有一个呢，叫辅助排序啊，那所说的这个辅助排序排序啊，就是我们说的这个radio阶段这个地方啊，就分组排序啊，那现在呢，我们已经把它删掉啊，知道有这么个事儿就行了，也就是说呢，我们可以把进入到这个radio阶段这个key啊再重新。进行按照我们用户的要求再进行一个排序啊。用的比较少。200斤。在自定义排序过程排序过程当中，如果compare中判断条件为两个的话，就叫二排序。啥意思呢？我们马上要自定义这个排序。啊，马上制定排序，那要重写这个readable compare包接口啊，重写里面对应的这个compare to方法compare to啊它其实是Java里面的，对吧？啊Java的一个接口啊，可以是重写的，那重写之后，那我们按照这个排序的原则，比如说我先按首期总流量。
11:05
排序，那如果总流量相同的话，我得按上行流量哎来一个倒叙，然后再下行流量再倒叙。什么意思？比如说总流量都是240。那怎么办？那我想我得按照第二个元素参与进行一个排序啊，第二个元素，比如说他是呃，第一个人是120，那第二个人呢是300。那我来个倒叙的话，那就把300这个拿到上面。啊是这一意思，就是说参与的元素啊，啊个数有多少啊，二次排序，那二次排序呢，其实每家公司的叫法也不太一样啊，有的像我刚才说的这种，那还有呢，是这个呃，自定义排序，它也叫二次排序。叫法不一样啊，这个没关系啊，只要他能解决我们对应的这个用户的需求就可以，我们后面会有案例呢，专门来练习这个分类啊。呃，下面呢，就是如果说我们要自定义排序的话。那我们的步骤是什么？怎么办呢？诶。很简单啊，比如说我们对B对象，嗯，作为可以进行传输，我们那个罗B还记得吧，手机号那个B。
12:05
我想让它放在key里面进行传输。那他必须得支持排序，因为咱已经说了，Hido框架呢是默认要求K必须得能排序，不管你在业务上需要还是不需要。你只要不能排序，那直接就报错了，你要重把这个B对象直接放到key里面，而且呢，还没有重写这个，呃，Right包包接口。啊，那那就完蛋了啊，好，那实验的步骤啊，就是要实现red包compare接口，哎，重写里面的compare to方法。那咱们之前序列化的时候，还记得我们重启的是哪个接口不？还记得吗？序列化的时候，我们实现的是不是right啊，你看一下。打开。Shift啊，双击shift啊。卡住了，稍等包回来之后，我们嗯收一下对吧？哎，这是我们呃，Right包接口，那现在呢，这里面你看一下啊，这里面有没有compare出方法啊，没有，那得用哪用谁呢啊继续shift shift。
13:04
Readable comparable。你看接口它是。这个是继承了对吧？哎，继承了这个redable，还继承了这个啊compareable接口对吧？哎，那你不能说你咱们自己写这个哈，比如说咱自己写一个类啊，这个继承了red包啊，也有继承了这个compare包啊，这样其实呢，它这个语法上校验还是比较严格的啊，它不允许这样，那怎么办呢？哎，你只能继承它。啊，或者实现实现的接口对吧，哎，把这俩就都包含了哈。这是它的一个语法要求啊。那回到这儿。先看。这很简单吧，哎，然后呢，那这里面嗯，就得重写它的这个compare to方法吧，哎，Compare to方法是属于谁的。是不是属于他的，你看。接口嘛，接口里面需要有一个compare方法，哎，重启它就可以。
14:04
那在这里面我们就可以根据我们自己的用户业务逻辑进行一个编写啊，那后面呢，我马上就开始做这个案例。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hadoop3.x

（178/178）

8分30秒

01_尚硅谷_Hadoop_开篇_课程整体介绍

670

4分33秒

02_尚硅谷_Hadoop_概论_大数据的概念

610

7分21秒

03_尚硅谷_Hadoop_概论_大数据的特点

460

9分57秒

04_尚硅谷_Hadoop_概论_大数据的应用场景

410

8分16秒

05_尚硅谷_Hadoop_概论_大数据的发展场景

380

6分24秒

06_尚硅谷_Hadoop_概论_未来工作内容

390

7分28秒

07_尚硅谷_Hadoop_入门_课程介绍

450

2分59秒

08_尚硅谷_Hadoop_入门_Hadoop是什么

470

5分50秒

09_尚硅谷_Hadoop_入门_Hadoop发展历史

470

15分24秒

100_尚硅谷_Hadoop_MapReduce_全排序案例

510

3分6秒

101_尚硅谷_Hadoop_MapReduce_二次排序案例

360

6分52秒

102_尚硅谷_Hadoop_MapReduce_区内排序案例

350

7分17秒

103_尚硅谷_Hadoop_MapReduce_Combiner概述

430

12分32秒

104_尚硅谷_Hadoop_MapReduce_Combiner案例

490

3分41秒

105_尚硅谷_Hadoop_MapReduce_outputformat概述

330

4分21秒

106_尚硅谷_Hadoop_MapReduce_自定义outputformat案例需求分析

310

4分32秒

107_尚硅谷_Hadoop_MapReduce_自定义outputformat案例mapper&reducer

390

12分31秒

108_尚硅谷_Hadoop_MapReduce_自定义outputformat案例执行

470

3分45秒

109_尚硅谷_Hadoop_MapReduce_MapTask工作机制

330

5分57秒

10_尚硅谷_Hadoop_入门_Hadoop三大发行版本

420

8分59秒

110_尚硅谷_Hadoop_MapReduce_ReduceTask工作机制&并行度

410

16分56秒

111_尚硅谷_Hadoop_MapReduce_MapTask源码

460

15分23秒

112_尚硅谷_Hadoop_MapReduce_ReduceTask源码

450

9分21秒

113_尚硅谷_Hadoop_MapReduce_ReduceJoin案例需求分析

390

7分7秒

114_尚硅谷_Hadoop_MapReduce_ReduceJoin案例TableBean

450

12分33秒

115_尚硅谷_Hadoop_MapReduce_ReduceJoin案例Mapper

370

12分26秒

116_尚硅谷_Hadoop_MapReduce_ReduceJoin案例完成

530

4分14秒

117_尚硅谷_Hadoop_MapReduce_ReduceJoin案例debug

380

6分56秒

118_尚硅谷_Hadoop_MapReduce_MapJoin案例需求分析

490

13分9秒

119_尚硅谷_Hadoop_MapReduce_MapJoin案例完成

400

3分51秒

11_尚硅谷_Hadoop_入门_Hadoop优势

400

2分48秒

120_尚硅谷_Hadoop_MapReduce_MapJoin案例debug

400

15分10秒

121_尚硅谷_Hadoop_MapReduce_ETL数据清洗案例

450

10分49秒

122_尚硅谷_Hadoop_MapReduce_MapReduce开发总结

380

16分4秒

123_尚硅谷_Hadoop_MapReduce_压缩概述

300

10分21秒

124_尚硅谷_Hadoop_MapReduce_压缩案例实操

330

5分18秒

125_尚硅谷_Hadoop_Yarn_课程介绍

400

4分55秒

126_尚硅谷_Hadoop_Yarn_基础架构

440

6分42秒

127_尚硅谷_Hadoop_Yarn_工作机制

400

3分35秒

128_尚硅谷_Hadoop_Yarn_全流程作业

340

4分17秒

129_尚硅谷_Hadoop_Yarn_FIFO调度器

380

2分59秒

12_尚硅谷_Hadoop_入门_Hadoop1.x2.x3.x区别

440

10分23秒

130_尚硅谷_Hadoop_Yarn_容量调度器

370

19分24秒

131_尚硅谷_Hadoop_Yarn_公平调度器

480

14分48秒

132_尚硅谷_Hadoop_Yarn_常用命令

500

10分25秒

133_尚硅谷_Hadoop_Yarn_生产环境核心参数配置

350

4分14秒

134_尚硅谷_Hadoop_Yarn_Linux集群快照

380

15分30秒

135_尚硅谷_Hadoop_Yarn_生产环境核心参数配置案例

330

5分42秒

136_尚硅谷_Hadoop_Yarn_生产环境多队列创建&好处

360

12分39秒

137_尚硅谷_Hadoop_Yarn_容量调度器多队列案例

370

6分50秒

138_尚硅谷_Hadoop_Yarn_容量调度器任务优先级

350

15分5秒

139_尚硅谷_Hadoop_Yarn_公平调度器案例

360

6分24秒

13_尚硅谷_Hadoop_入门_HDFS概述

470

5分11秒

140_尚硅谷_Hadoop_Yarn_Tool接口案例环境准备

370

19分14秒

141_尚硅谷_Hadoop_Yarn_Tool接口案例完成

430

10分25秒

142_尚硅谷_Hadoop_Yarn_课程总结

420

14分13秒

143_尚硅谷_Hadoop_生产调优手册_核心参数_NN内存配置

240

3分11秒

144_尚硅谷_Hadoop_生产调优手册_核心参数_NN心跳并发配置

330

7分15秒

145_尚硅谷_Hadoop_生产调优手册_核心参数_开启回收站

370

5分54秒

146_尚硅谷_Hadoop_生产调优手册_HDFS压测环境准备

390

18分53秒

147_尚硅谷_Hadoop_生产调优手册_HDFS读写压测

400

8分24秒

148_尚硅谷_Hadoop_生产调优手册_NN多目录配置

280

8分41秒

149_尚硅谷_Hadoop_生产调优手册_DN多目录及磁盘间数据均衡

350

6分34秒

14_尚硅谷_Hadoop_入门_YARN概述

400

10分0秒

150_尚硅谷_Hadoop_生产调优手册_添加白名单

350

13分6秒

151_尚硅谷_Hadoop_生产调优手册_服役新服务器

370

3分16秒

152_尚硅谷_Hadoop_生产调优手册_服务器间数据均衡

340

7分45秒

153_尚硅谷_Hadoop_生产调优手册_黑名单退役服务器

330

11分20秒

154_尚硅谷_Hadoop_生产调优手册_存储优化_5台服务器准备

390

8分15秒

155_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码原理

320

10分40秒

156_尚硅谷_Hadoop_生产调优手册_存储优化_纠删码案例

390

8分34秒

157_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储概述

430

17分39秒

158_尚硅谷_Hadoop_生产调优手册_存储优化_异构存储案例实操

380

9分8秒

159_尚硅谷_Hadoop_生产调优手册_NameNode故障处理

430

1分54秒

15_尚硅谷_Hadoop_入门_MapReduce概述

500

18分31秒

160_尚硅谷_Hadoop_生产调优手册_集群安全模式&磁盘修复

360

9分18秒

161_尚硅谷_Hadoop_生产调优手册_慢磁盘监控

420

8分10秒

162_尚硅谷_Hadoop_生产调优手册_小文件归档

410

3分17秒

163_尚硅谷_Hadoop_生产调优手册_集群数据迁移

340

2分42秒

164_尚硅谷_Hadoop_生产调优手册_MR跑的慢的原因

370

12分25秒

165_尚硅谷_Hadoop_生产调优手册_MR常用调优参数

390

5分25秒

166_尚硅谷_Hadoop_生产调优手册_MR数据倾斜问题

410

1分17秒

167_尚硅谷_Hadoop_生产调优手册_Yarn生产经验

370

10分13秒

168_尚硅谷_Hadoop_生产调优手册_HDFS小文件优化方法

340

2分52秒

169_尚硅谷_Hadoop_生产调优手册_MapReduce集群压测

350

3分21秒

16_尚硅谷_Hadoop_入门_HDFS&YARN&MR关系

420

14分59秒

170_尚硅谷_Hadoop_生产调优手册_企业开发场景案例

390

13分43秒

171_尚硅谷_Hadoop_源码解析_RPC通信原理解析

320

21分36秒

172_尚硅谷_Hadoop_源码解析_NameNode启动源码解析

400

22分9秒

173_尚硅谷_Hadoop_源码解析_DataNode启动源码解析

400

7分38秒

174_尚硅谷_Hadoop_源码解析_HDFS上传源码_整体介绍

370

10分12秒

175_尚硅谷_Hadoop_源码解析_HDFS上传源码_create

380

23分1秒

176_尚硅谷_Hadoop_源码解析_HDFS上传源码_write

400

21分20秒

177_尚硅谷_Hadoop_源码解析_Yarn源码解析

370

21分1秒

178_尚硅谷_Hadoop_源码解析_Hadoop源码编译

400

9分16秒

17_尚硅谷_Hadoop_入门_大数据技术生态体系

540

4分40秒

18_尚硅谷_Hadoop_入门_VMware安装

600

15分55秒

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装

520

10分49秒

20_尚硅谷_Hadoop_入门_IP和主机名称配置

540

100

9分4秒

21_尚硅谷_Hadoop_入门_Xshell远程访问工具

630

101

12分24秒

22_尚硅谷_Hadoop_入门_模板虚拟机准备完成

550

102

15分0秒

23_尚硅谷_Hadoop_入门_克隆三台虚拟机

480

103

7分0秒

24_尚硅谷_Hadoop_入门_JDK安装

460

104

7分19秒

25_尚硅谷_Hadoop_入门_Hadoop安装

560

105

11分55秒

26_尚硅谷_Hadoop_入门_本地运行模式

480

106

15分0秒

27_尚硅谷_Hadoop_入门_scp&rsync命令讲解

550

107

18分13秒

28_尚硅谷_Hadoop_入门_xsync分发脚本

460

108

11分24秒

29_尚硅谷_Hadoop_入门_ssh免密登录

410

109

13分22秒

30_尚硅谷_Hadoop_入门_集群配置

590

110

16分51秒

31_尚硅谷_Hadoop_入门_群起集群并测试

420

111

8分9秒

32_尚硅谷_Hadoop_入门_集群崩溃处理办法

410

112

5分24秒

33_尚硅谷_Hadoop_入门_历史服务器配置

410

113

5分41秒

34_尚硅谷_Hadoop_入门_日志聚集功能配置

430

114

9分17秒

35_尚硅谷_Hadoop_入门_两个常用脚本

430

115

4分14秒

36_尚硅谷_Hadoop_入门_两道面试题

520

116

11分26秒

37_尚硅谷_Hadoop_入门_集群时间同步

500

117

10分56秒

38_尚硅谷_Hadoop_入门_常见问题总结

460

118

4分22秒

39_尚硅谷_Hadoop_HDFS_课程介绍

400

119

4分10秒

40_尚硅谷_Hadoop_HDFS_产生背景和定义

480

120

5分26秒

41_尚硅谷_Hadoop_HDFS_优缺点

440

121

9分8秒

42_尚硅谷_Hadoop_HDFS_组成

530

122

8分0秒

43_尚硅谷_Hadoop_HDFS_文件块大小

410

123

9分47秒

44_尚硅谷_Hadoop_HDFS_Shell命令上传

440

124

16分40秒

45_尚硅谷_Hadoop_HDFS_Shell命令下载&直接操作

430

125

8分18秒

46_尚硅谷_Hadoop_HDFS_API环境准备

560

126

10分52秒

47_尚硅谷_Hadoop_HDFS_API创建文件夹

530

127

6分41秒

48_尚硅谷_Hadoop_HDFS_API上传

440

128

5分6秒

49_尚硅谷_Hadoop_HDFS_API参数的优先级

310

129

8分23秒

50_尚硅谷_Hadoop_HDFS_API文件下载

430

130

4分11秒

51_尚硅谷_Hadoop_HDFS_API文件删除

430

131

5分2秒

52_尚硅谷_Hadoop_HDFS_API文件更名和移动

400

132

7分56秒

53_尚硅谷_Hadoop_HDFS_API文件详情查看

390

133

3分19秒

54_尚硅谷_Hadoop_HDFS_API文件和文件夹判断

440

134

11分36秒

55_尚硅谷_Hadoop_HDFS_写数据流程

510

135

4分29秒

56_尚硅谷_Hadoop_HDFS_节点距离计算

450

136

6分6秒

57_尚硅谷_Hadoop_HDFS_机架感知（副本存储节点选择）

330

137

5分3秒

58_尚硅谷_Hadoop_HDFS_读数据流程

370

138

13分27秒

59_尚硅谷_Hadoop_HDFS_NN和2NN工作机制

390

139

9分32秒

60_尚硅谷_Hadoop_HDFS_FsImage镜像文件

390

140

4分48秒

61_尚硅谷_Hadoop_HDFS_Edits编辑日志

350

141

2分33秒

62_尚硅谷_Hadoop_HDFS_检查点时间设置

410

142

7分35秒

63_尚硅谷_Hadoop_HDFS_DN工作机制

390

143

7分6秒

64_尚硅谷_Hadoop_HDFS_数据完整性

420

144

4分43秒

65_尚硅谷_Hadoop_HDFS_掉线时限参数设置

470

145

3分43秒

66_尚硅谷_Hadoop_HDFS_总结

380

146

4分22秒

67_尚硅谷_Hadoop_MapReduce_课程介绍

360

147

9分58秒

68_尚硅谷_Hadoop_MapReduce_概述&优点缺点

420

148

9分41秒

69_尚硅谷_Hadoop_MapReduce_核心思想

350

149

7分6秒

70_尚硅谷_Hadoop_MapReduce_官方WC源码&序列化类型

380

150

7分7秒

71_尚硅谷_Hadoop_MapReduce_编程规范

400

151

6分55秒

72_尚硅谷_Hadoop_MapReduce_WordCount案例需求分析

420

152

4分9秒

73_尚硅谷_Hadoop_MapReduce_WordCount案例环境准备

360

153

14分13秒

74_尚硅谷_Hadoop_MapReduce_WordCount案例Mapper

360

154

8分45秒

75_尚硅谷_Hadoop_MapReduce_WordCount案例Reducer

430

155

10分58秒

76_尚硅谷_Hadoop_MapReduce_WordCount案例Driver

470

156

15分20秒

77_尚硅谷_Hadoop_MapReduce_WordCount案例Debug调试

370

157

12分41秒

78_尚硅谷_Hadoop_MapReduce_WordCount案例集群运行

500

158

6分29秒

79_尚硅谷_Hadoop_MapReduce_序列化概述

380

159

8分18秒

80_尚硅谷_Hadoop_MapReduce_自定义序列化步骤

450

160

9分8秒

81_尚硅谷_Hadoop_MapReduce_序列化案例需求分析

410

161

6分50秒

82_尚硅谷_Hadoop_MapReduce_序列化案例FlowBean

420

162

8分59秒

83_尚硅谷_Hadoop_MapReduce_序列化案例FlowMapper

420

163

4分49秒

84_尚硅谷_Hadoop_MapReduce_序列化案例FlowReducer

450

164

6分20秒

85_尚硅谷_Hadoop_MapReduce_序列化案例FlowDriver

400

165

7分53秒

86_尚硅谷_Hadoop_MapReduce_序列化案例debug调试

350

166

15分18秒

87_尚硅谷_Hadoop_MapReduce_切片机制与MapTask并行度决定机制

360

167

20分33秒

88_尚硅谷_Hadoop_MapReduce_Job提交流程

320

168

19分16秒

89_尚硅谷_Hadoop_MapReduce_切片源码

380

169

4分59秒

90_尚硅谷_Hadoop_MapReduce_切片源码总结

530

170

3分13秒

91_尚硅谷_Hadoop_MapReduce_FileInputFormat切片机制

370

171

4分38秒

92_尚硅谷_Hadoop_MapReduce_TextInputFormat

430

172

10分17秒

93_尚硅谷_Hadoop_MapReduce_CombineTextInputFormat

320

173

16分42秒

94_尚硅谷_Hadoop_MapReduce_MapReduce工作流程

450

174

6分21秒

95_尚硅谷_Hadoop_MapReduce_Shuffle机制

390

175

12分49秒

96_尚硅谷_Hadoop_MapReduce_默认HashPartitioner分区

450

176

7分19秒

97_尚硅谷_Hadoop_MapReduce_自定义分区案例

370

177

7分19秒

98_尚硅谷_Hadoop_MapReduce_分区数与Reduce个数的总结

360

178

14分13秒

99_尚硅谷_Hadoop_MapReduce_排序概述

400

99_尚硅谷_Hadoop_MapReduce_排序概述

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐