首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Ambari + HDP 整体介绍

Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具,此处的Hadoop集群不单单指Hadoop集群,而是泛指hadoop 整个生态,包括Hdfs,yarn,Spark,Hive,Hbase,Zookeeper,druid等等,管理指的是可以通过Ambari对整个集群进行动态管理,包括集群的部署,修改,删除,扩展等,监控指Ambari实时监控集群的运行状况,包括运行内存,剩余内存,CPU使用率,节点故障等。所以通过Ambari可以简化对集群的管理和监控,让开发者更多的聚焦与业务逻辑。     Ambari + HDP介绍:         Ambari:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。         HDP:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         HDP-Util:包含了公共包,比如ZK等一些公共组件。     老的集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (Hive相关表结构管理,如果没有用到Hive,无需安装)         3. Hadoop Hdfs 部署(修改配置) (分布式文件存储)         4. Hadoop Yarn 部署(修改配置) (MapReduce 任务调度)         5. (可选) Zookeeper部署,需要修改NameNode 和 ResourceManager 的配置文件         6. Hive 部署 (数据仓库,对Hdfs上保存的数据进行映射管理)         7. HBase 部署 (NoSQL数据库,进行数据存储)         8. (可选) Flume,Sqoop 部署(主要用于数据采集,数据迁移)         9. Spark 部署 (计算框架部署)         10. 后面还需要部署 监控框架等等,         部署准备:MySql,JDK,Hadoop,Hive,HBase,Zookeeper,Spark,Flume,Sqoop等         部署缺点:以上全部部署都是通过命令行来部署,麻烦复杂,容易出错,动态扩展较难,无集群监控    部署优点:整体可控,对集群内部运行逻辑比较清楚,只部署需要的服务,所以对集群要求(内存,CPU及硬盘) 可以不是很高     Ambari 集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (需要配置Ambari,Hive,Hbase等多张表)         3. 部署Ambari 服务         4. 通过Ambari Web工具 部署Hdfs,Spark,Hive,Zk,Hbase,Flume等,想怎么部署就怎么部署,鼠标选择服务和需要部署的节点即可         5. 通过Ambari Web工具进行集群监控,并且对警告及错误进行处理         部署准备:MySql,JDK,Ambari,HDP,HDP-Util,和上面老的部署方式相比,是不是少了很多    部署注意事项:通过Ambari部署集群对集群节点机器要求比较高,因为有好多关于AmbariServer服务会部署在同一个管理节点上,同时其他集群节点也会同时部署很多其他服务,这对节点的配置(CPU,内存,硬盘)要求比较高,可能运行不起来。         部署优点:部署简单,一键部署,方便监控,方便扩展,多集群同时管理     Ambari 部署步骤:         1. 单节点:Ntp,java,selinux,hosts,hostname,ip         2. 克隆节点,修改ip及hostname         3. 安装mysql,配置免密登陆         4. 安装httpd,配置本地ambari+HDP 的yum源         5. Ambari Server安装及初始化         6. Ambari Server 通过向导安装集群         7. Ambari 使用介绍         8. Hdfs HA的高可用         9. 接下来就可以根据我们的需求使用集群了,这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

01

CM+CDH 整体介绍

大数据平台的开发环境搭建,我们前面已经说过了,需要搭建Hdfs,Yarn,Spark,HBase,Hive,ZK等等,在开发环境下搭建是用于开发测试的,全部部署在VM 虚拟机里面,小数据量小运算量还可以,数据量运算量一旦上来,虚拟机是玩不转的,这就牵涉到生产环境的Hadoop的生态搭建,难道也需要我们一步一步来搭建吗? 几台还可以,那么上百台呢? 难道也需要一台台搭建吗? 显然不可以,有没有什么好的Hadoop生态的搭建工具呢? 国外有俩家企业做了这些事,hortonworks公司推出的Ambari+HDP套件 和 Cloudrea公司推出的 CM+CDH 套件,不过这俩家公司 18年底合并了,不过这并不影响我们的使用。 2. CM+CDH介绍     CM是Cloudrea Manager的简称,是Cloudrea 提供的生产环境的Hadoop 生态部署工具,工具套件为CM+CDH,CM负责监控动态管理及部署Hadoop生态服务,CDH里面包含了绝大多数的Hadoop生态中的服务,包含Hdfs,Yarn,ZK,Hive,Hbase,Flume,Sqoop,Spark等。整体上与前面说所得Ambari + HDP类似。     CM+CDH有免费版和收费版,收费版当然功能更加强悍,比如支持回滚,滚动升级,支持Kerberos,SAML/LDAP支持,SNMP支持,自动化备份和灾难恢复,不过在我们看来,免费版已经够我们使用了。     这里简单和Ambari + HDP对已一下,CDH在部署Hadoop生态上,整体与HDP类似,通过WEB端动态部署Hadoop生态,     Name              Web        Server        Tools     hortonworks    Ambari    HDP            HDP-Util     Cloudrea         CM          CDH            CDH-Util     CM+CDH套件组成         CM:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。         CDH:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         CDH-Util:包含了公共包,比如ZK等一些公共组件。 3. CM+CDH 部署

01
您找到你想要的搜索结果了吗?
是的
没有找到

集群搭建篇(ambari+HDP)—— 全网最详细的,没有之一

1、服务器环境1.1 修改主机名称1.2 修改ip地址1.3 linux修改hosts并添加集群主机1.4 windows修改hosts文件并添加集群主机2、免密配置2.1 切换root用户2.2 生成公钥与私钥对2.3 将公钥复制到目标机器,并测试免密登录是否成功2.4 集群其他主机免密配置2.5 异常演示3、关闭防火墙3.1 防火墙设置3.2 设置之后3.3 设置之前4、禁用selinux4.1 selinux介绍4.2 设置selinux5、安装JDK5.1 上传jdk5.2 配置Java环境变量5.3 检查Java环境是否生效6、安装mysql6.1 mysql安装6.2 mysql设置6.3 修改密码6.4 上传驱动7、安装httpd服务7.1 httpd介绍7.1 安装httpd服务7.2 查看httpd服务7.3 tips:网页访问本地文件内容8、安装ntp服务8.1 ntp介绍8.2 安装8.3 修改ntp.conf配置8.4 时钟同步8.5 检查时钟同步效果9、搭建yum环境和创建ambari本地源9.1 安装yum工具9.2 安装9.3 创建repo文件9.4 分发repo文件9.4 生成本地yum源10、安装ambari10.1 在mysql中创建ambari用户和授权10.2 安装ambari10.2 初始化配置10.3 初始化ambari数据库10.4 启动ambari10.5 报错及解决10.6 ambari页面配置步骤10.6.1 第1步 启动安装10.6.2 第2步 输出集群名称10.6.3 第3步 选择版本、选择本地仓库及路径10.6.4 第4步 输入集群节点名称、私钥10.6.5 节点认证10.6.6 选择服务10.6.7 分配主节点10.6.8 分配从节点和客户端10.6.9 自定义服务10.6.10 确认配置10.6.11 安装部署11、启动服务11.1 java权限问题11.2 hive元数据初始化

05

ambari安装指南

(一)准备工作 1、准备几台机器 10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器 10.1.51.10 master 10.1.51.11 slave1 10.1.51.12 slave2 2、都创建管理用户hadoop 3、做ssh免密码登录(ambariserver到其他机器的,hadoop用户) ssh-keygen cd .ssh cat id_rsa.pub >> authorized_keys chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys 注意,免密码一定要互相登陆一次,让他记住密码 4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做 在各节点上进入root: visudo 加入如下内容: hadoop ALL=(ALL) NOPASSWD: ALL 5、Maximum Open File Descriptors(10000) 检查语句 ulimit -Sn ulimit -Hn sudo vi /etc/security/limits.conf @hadoop soft nproc 262144 @hadoop hard nproc 262144 @hadoop soft nofile 262144 @hadoop hard nofile 262144 sudo vi /etc/security/limits.d/90-nproc.conf @hadoop soft nproc 262144 以上改动重启才能生效,最好同时执行ulimit -u 10240 命令,是其立即生效。(ulimit 命令很多啊) 6、Check Existing Package Versions 7、Set up Service User Accounts(设置服务用户账户) http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422 hdp的各个服务运行在不同的linux账户下,如果你创建了这些账户,ambari就会直接用,否则他会自动创建,但是自动创建的用户不知道密码是什么,但是还是可以 sudo su hdfs进入到这些用户下,不过这样就不方便了。 比较好的办法是自己创建的账户,使用ambari安装组件时选择自定义账户即可(UID >= 1000)。 8、Enable NTP on the Cluster and on the Browser Host 集群各节点,包括安装ambari webui的机器都得开启ntp服务已同步时间,如果有条件,局域网应该有ntp服务器 To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on To turn on the NTP service, run the following command on each host:service ntpd start 9、Check DNS(可以选择10) 集群所有机器必须配置正向和反向DNS,如果条件不允许,就设置/etc/hosts文件,每个节点都得改 10、/etc/hosts 1.2.3.4 <fully.qualified.domain.name> //一行一个 注意:这两行千万不要删除 127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6 vi /etc/sysconfig/network NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name> 11、关闭防火墙 12、Disable SELinux and PackageKit and check the umask Value set SELINUX=disabled in /etc/selinux/config sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf 设置:enabled=0 Ambari supports a umask value

08

0480-如何从HDP2.6.5原地迁移到CDH5.16.1

我们常使用的Hadoop平台包括Apache Hadoop,CDH和HDP,有时我们会碰到需要迁移平台的情况,举个例子,比如你已经一直在使用Apache Hadoop2.4,近期看到CDH6附带Hadoop3发布了,想迁移到CDH并且做整个平台的所有组件升级。平台迁移和平台升级的方式基本一样的,一般有2种大的选择,第一种是原地升级即直接在原有平台上操作,该办法操作效率较高,马上看到效果,但往往风险较高,比如升级失败回滚方案不完善,跨大版本比如Hadoop2到Hadoop3可能HDFS还有丢数据的风险;第二种是拷贝数据的方式升级,需要额外的服务器资源,会新搭平台,然后把旧的平台的数据拷贝过去,数据拷贝完毕后,再把旧集群的机器下线了慢慢加入到新集群,该方法一般实施周期较长,但是风险较小。根据实际情况可以选择不同的方式来进行平台迁移或者平升级,另外对于两种方案还可以具体细化分类出不同的方案,比如第一种方案考虑提前备份数据或者备份关键数据等,本文Fayson不做细化讨论。

04

0479-如何禁用HDP2.6.5的HDFS HA

Fayson为了方便接下来从HDP迁移到CDH的工作,这里先补充一篇如何禁用HDP的HDFS的HA,从HDP原地迁移到CDH,如果你的原HDP集群有HA的话,为了因为Zookeeper,JournalNode配置带来的不适应,先取消HA会更保险一些。这里还是要吐槽一下HDP的HDFS HA功能,使用Ambari可以界面化的启用HA,但是要禁用会非常非常麻烦,需要手动做很多个步骤才能最终取消成功。Cloudera Manager还是要方便很多,这一块可以参考Fayson之前的文章《如何使用Cloudera Manager启用HDFS的HA》和《如何使用Cloudera Manager禁用HDFS HA》。本文Fayson主要是介绍如何手动禁用HDP的HDFS的HA。前置条件当然是你使用Ambari开启了HDFS的HA了,如何开启Fayson在本文就不会再做描述了。

05
领券