你需要先看这个系列:
HDFS 的可靠性主要有一下几点:
1.冗余副本策略
2.机架策略
3.心跳机制
4.安全模式
5.checksum
6.回收站
7.元数据保护
失败类型
失败处理
MapReduce – Shuffle
对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结果的大小 每个Map完成后都会通知Task,然后Reduce就可以进行处理。
Map端
Reduce端
调优