前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《快学BigData》--Hadoop总结(H)(41)

《快学BigData》--Hadoop总结(H)(41)

作者头像
小徐
发布2019-08-05 14:43:29
5080
发布2019-08-05 14:43:29
举报
文章被收录于专栏:GreenplumGreenplum

Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210

概述 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

CDH - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 非Zookeeper集群版 - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 Zookeeper集群版 - - - - - - - - - - - - - - - 216

MapReduce整体的流程详解 - - - - - - - - - - - - - - - - - - - - 225

Hadoop HDFS 系统详解 - - - - - - - - - - - - - - - - - - - - - 226

JAVA 操作HDFS - - - - - - - - - - - - - - - - - - - - - - - - 241

Hadoop MapReduce 实例 - - - - - - - - - - - - - - - - - - - - 248

Hadoop 其他总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop 优化总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop 其他总结

1-1)、Shuffer 概念

Shuffer 是一个数据分发的过程,是在map端到缓冲区溢出开始到reduce端拿到数据的工程叫做shuffer。主要的包含缓存,分区与排序还有数据的分发(实际的是reduce是拉数据的)和传输。过程分为3个操作:

1、分区partition

2、Sort根据key排序

3、Combiner进行局部value的合

1-2)、文件的切片

文件的额切片是有客户端完成的,有jobSubmilit方法来完成的,之后就交给jobTask去执行,这样可以减少集群的运算性能。

Hadoop 优化总结

1-1)、hadoop 优化思路

A)、硬件方面

所有能减少网络的尽量减少网络,所有能减少IO的尽量减少IO

在挂在磁盘时要注意各个目录的划分大小,例如:boot目录的大小,swap目录的大小以及其他挂在的磁盘的大小

B)、Linux 方面优化
1-1)、修改Linux上文件打开的大小

[root@hadoop1 /]# vi /etc/security/limits.conf 添加一下配置

加上:* 代表所有的用户都生效 * soft nofile 10240 * hard nofile 20480

[root@hadoop1 /]# vi /etc/pam.d/login

session required pam_limits.so

与nginx 有相同的优化配置

1-2)、修改网卡的MTU

[root@hadoop1 /]# cat /sys/class/net/eth0/mtu

[root@hadoop1 eth0]# echo "10000" > /sys/class/net/eth0/mtu

要根据网卡的配置来设置,适当的调节参数的大小

1-2)、集群典型的节点分配

角色 描述 节点数目

HDFS Namenode 分布式文件系统用以储存文件 1个独立节点

系统以及数据块的元数据

HDFS Seccondary NameNode的影子点 小规模集群可以和namenode

NameNode 共享节点,大规模集群用独立节点

HDFS DataNode HDFS数据储存 多个独立节点

MapReduce MapReduce调度程序 一个独立节点,小规模集群可以

JobTracker 与NameNode共享,大规模集群

使用独立节点

Hive Hive 元数据的驱动程序 独立配置的话可以与namenode

共享节点,或者将元数据存放在

客户端

Zookeeper 可以提供集群高可用性的所服务 3个或3个以上的奇数的独立

节点(小规模可以和其他的角色

共享节点)

Hbase HMaster HBase用以调度RegionServr的主服务 与其他角色共享节点的多个节点

Management Node CRH特有的管理节点 一般为一个独立的节点如果小

集群的话可以与其他角色共享

Hadopo 集群测试工具

1-1)、软件下载

http://prof.ict.ac.cn/bdb_uploads/bdb_3_1/packages/BigDataBench_V3.2.1_Hadoop.tar.gz

1-2)、使用方法

A)、进入到PageRank的目录

# cd /opt/BigDataBench_V3.2.1_Hadoop_Hive/SearchEngine/PageRank

B)、执行脚本

# ./run_PageRank.sh 10

10 代表循环10次

C)、查看生成的数据
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 河马coding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop 其他总结
    • 1-1)、Shuffer 概念
      • 1-2)、文件的切片
      • Hadoop 优化总结
        • 1-1)、hadoop 优化思路
          • A)、硬件方面
          • B)、Linux 方面优化
        • 1-2)、集群典型的节点分配
        • Hadopo 集群测试工具
          • 1-1)、软件下载
            • 1-2)、使用方法
              • A)、进入到PageRank的目录
              • B)、执行脚本
              • C)、查看生成的数据
          相关产品与服务
          大数据
          全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档