Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210
概述 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211
CDH - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211
安装Hadoop2.6.4 非Zookeeper集群版 - - - - - - - - - - - - - - - 211
安装Hadoop2.6.4 Zookeeper集群版 - - - - - - - - - - - - - - - 216
MapReduce整体的流程详解 - - - - - - - - - - - - - - - - - - - - 225
Hadoop HDFS 系统详解 - - - - - - - - - - - - - - - - - - - - - 226
JAVA 操作HDFS - - - - - - - - - - - - - - - - - - - - - - - - 241
Hadoop MapReduce 实例 - - - - - - - - - - - - - - - - - - - - 248
Hadoop 其他总结 - - - - - - - - - - - - - - - - - - - - - - - - 259
Hadoop 优化总结 - - - - - - - - - - - - - - - - - - - - - - - - 259
Shuffer 是一个数据分发的过程,是在map端到缓冲区溢出开始到reduce端拿到数据的工程叫做shuffer。主要的包含缓存,分区与排序还有数据的分发(实际的是reduce是拉数据的)和传输。过程分为3个操作:
1、分区partition
2、Sort根据key排序
3、Combiner进行局部value的合
文件的额切片是有客户端完成的,有jobSubmilit方法来完成的,之后就交给jobTask去执行,这样可以减少集群的运算性能。
所有能减少网络的尽量减少网络,所有能减少IO的尽量减少IO
在挂在磁盘时要注意各个目录的划分大小,例如:boot目录的大小,swap目录的大小以及其他挂在的磁盘的大小
[root@hadoop1 /]# vi /etc/security/limits.conf 添加一下配置
加上:* 代表所有的用户都生效 * soft nofile 10240 * hard nofile 20480
[root@hadoop1 /]# vi /etc/pam.d/login
session required pam_limits.so
与nginx 有相同的优化配置
[root@hadoop1 /]# cat /sys/class/net/eth0/mtu
[root@hadoop1 eth0]# echo "10000" > /sys/class/net/eth0/mtu
要根据网卡的配置来设置,适当的调节参数的大小
角色 描述 节点数目
HDFS Namenode 分布式文件系统用以储存文件 1个独立节点
系统以及数据块的元数据
HDFS Seccondary NameNode的影子点 小规模集群可以和namenode
NameNode 共享节点,大规模集群用独立节点
HDFS DataNode HDFS数据储存 多个独立节点
MapReduce MapReduce调度程序 一个独立节点,小规模集群可以
JobTracker 与NameNode共享,大规模集群
使用独立节点
Hive Hive 元数据的驱动程序 独立配置的话可以与namenode
共享节点,或者将元数据存放在
客户端
Zookeeper 可以提供集群高可用性的所服务 3个或3个以上的奇数的独立
节点(小规模可以和其他的角色
共享节点)
Hbase HMaster HBase用以调度RegionServr的主服务 与其他角色共享节点的多个节点
Management Node CRH特有的管理节点 一般为一个独立的节点如果小
集群的话可以与其他角色共享
http://prof.ict.ac.cn/bdb_uploads/bdb_3_1/packages/BigDataBench_V3.2.1_Hadoop.tar.gz
# cd /opt/BigDataBench_V3.2.1_Hadoop_Hive/SearchEngine/PageRank
# ./run_PageRank.sh 10
10 代表循环10次