首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Ambari + HDP 整体介绍

    Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具,此处的Hadoop集群不单单指Hadoop集群,而是泛指hadoop 整个生态,包括Hdfs,yarn,Spark,Hive,Hbase,Zookeeper,druid等等,管理指的是可以通过Ambari对整个集群进行动态管理,包括集群的部署,修改,删除,扩展等,监控指Ambari实时监控集群的运行状况,包括运行内存,剩余内存,CPU使用率,节点故障等。所以通过Ambari可以简化对集群的管理和监控,让开发者更多的聚焦与业务逻辑。     Ambari + HDP介绍:         Ambari:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。         HDP:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         HDP-Util:包含了公共包,比如ZK等一些公共组件。     老的集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (Hive相关表结构管理,如果没有用到Hive,无需安装)         3. Hadoop Hdfs 部署(修改配置) (分布式文件存储)         4. Hadoop Yarn 部署(修改配置) (MapReduce 任务调度)         5. (可选) Zookeeper部署,需要修改NameNode 和 ResourceManager 的配置文件         6. Hive 部署 (数据仓库,对Hdfs上保存的数据进行映射管理)         7. HBase 部署 (NoSQL数据库,进行数据存储)         8. (可选) Flume,Sqoop 部署(主要用于数据采集,数据迁移)         9. Spark 部署 (计算框架部署)         10. 后面还需要部署 监控框架等等,         部署准备:MySql,JDK,Hadoop,Hive,HBase,Zookeeper,Spark,Flume,Sqoop等         部署缺点:以上全部部署都是通过命令行来部署,麻烦复杂,容易出错,动态扩展较难,无集群监控    部署优点:整体可控,对集群内部运行逻辑比较清楚,只部署需要的服务,所以对集群要求(内存,CPU及硬盘) 可以不是很高     Ambari 集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (需要配置Ambari,Hive,Hbase等多张表)         3. 部署Ambari 服务         4. 通过Ambari Web工具 部署Hdfs,Spark,Hive,Zk,Hbase,Flume等,想怎么部署就怎么部署,鼠标选择服务和需要部署的节点即可         5. 通过Ambari Web工具进行集群监控,并且对警告及错误进行处理         部署准备:MySql,JDK,Ambari,HDP,HDP-Util,和上面老的部署方式相比,是不是少了很多    部署注意事项:通过Ambari部署集群对集群节点机器要求比较高,因为有好多关于AmbariServer服务会部署在同一个管理节点上,同时其他集群节点也会同时部署很多其他服务,这对节点的配置(CPU,内存,硬盘)要求比较高,可能运行不起来。         部署优点:部署简单,一键部署,方便监控,方便扩展,多集群同时管理     Ambari 部署步骤:         1. 单节点:Ntp,java,selinux,hosts,hostname,ip         2. 克隆节点,修改ip及hostname         3. 安装mysql,配置免密登陆         4. 安装httpd,配置本地ambari+HDP 的yum源         5. Ambari Server安装及初始化         6. Ambari Server 通过向导安装集群         7. Ambari 使用介绍         8. Hdfs HA的高可用         9. 接下来就可以根据我们的需求使用集群了,这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

    01

    Ambari安装指南 顶

    Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目.目前最新的发布版本是 2.1.2. 就 Ambari 的作用来说,就是创建,管理,监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop. 用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具. 说到这里,大家就应该明白什么人最需要 Ambari 了.那些苦苦花费好几天去安装,调试 Hadoop 的初学者是最能体会到 Ambari 的方便之处的. 而且,Ambari 现在所支持的平台组件也越来越多,例如流行的 Spark,Storm 等计算框架,以及资源调度平台 YARN 等,我们都能轻松地通过 Ambari 来进行部署. Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent.简单来说,用户通过 Ambari Server 通知 Ambari Agent 安装对应的软件; Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server,最终这些状态信息会呈现在 Ambari 的 GUI,方便用户了解到集群的各种状态,并进行相应的维护.

    03

    0480-如何从HDP2.6.5原地迁移到CDH5.16.1

    我们常使用的Hadoop平台包括Apache Hadoop,CDH和HDP,有时我们会碰到需要迁移平台的情况,举个例子,比如你已经一直在使用Apache Hadoop2.4,近期看到CDH6附带Hadoop3发布了,想迁移到CDH并且做整个平台的所有组件升级。平台迁移和平台升级的方式基本一样的,一般有2种大的选择,第一种是原地升级即直接在原有平台上操作,该办法操作效率较高,马上看到效果,但往往风险较高,比如升级失败回滚方案不完善,跨大版本比如Hadoop2到Hadoop3可能HDFS还有丢数据的风险;第二种是拷贝数据的方式升级,需要额外的服务器资源,会新搭平台,然后把旧的平台的数据拷贝过去,数据拷贝完毕后,再把旧集群的机器下线了慢慢加入到新集群,该方法一般实施周期较长,但是风险较小。根据实际情况可以选择不同的方式来进行平台迁移或者平升级,另外对于两种方案还可以具体细化分类出不同的方案,比如第一种方案考虑提前备份数据或者备份关键数据等,本文Fayson不做细化讨论。

    04

    CM+CDH 整体介绍

    大数据平台的开发环境搭建,我们前面已经说过了,需要搭建Hdfs,Yarn,Spark,HBase,Hive,ZK等等,在开发环境下搭建是用于开发测试的,全部部署在VM 虚拟机里面,小数据量小运算量还可以,数据量运算量一旦上来,虚拟机是玩不转的,这就牵涉到生产环境的Hadoop的生态搭建,难道也需要我们一步一步来搭建吗? 几台还可以,那么上百台呢? 难道也需要一台台搭建吗? 显然不可以,有没有什么好的Hadoop生态的搭建工具呢? 国外有俩家企业做了这些事,hortonworks公司推出的Ambari+HDP套件 和 Cloudrea公司推出的 CM+CDH 套件,不过这俩家公司 18年底合并了,不过这并不影响我们的使用。 2. CM+CDH介绍     CM是Cloudrea Manager的简称,是Cloudrea 提供的生产环境的Hadoop 生态部署工具,工具套件为CM+CDH,CM负责监控动态管理及部署Hadoop生态服务,CDH里面包含了绝大多数的Hadoop生态中的服务,包含Hdfs,Yarn,ZK,Hive,Hbase,Flume,Sqoop,Spark等。整体上与前面说所得Ambari + HDP类似。     CM+CDH有免费版和收费版,收费版当然功能更加强悍,比如支持回滚,滚动升级,支持Kerberos,SAML/LDAP支持,SNMP支持,自动化备份和灾难恢复,不过在我们看来,免费版已经够我们使用了。     这里简单和Ambari + HDP对已一下,CDH在部署Hadoop生态上,整体与HDP类似,通过WEB端动态部署Hadoop生态,     Name              Web        Server        Tools     hortonworks    Ambari    HDP            HDP-Util     Cloudrea         CM          CDH            CDH-Util     CM+CDH套件组成         CM:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。         CDH:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         CDH-Util:包含了公共包,比如ZK等一些公共组件。 3. CM+CDH 部署

    01

    基于Ambari构建自己的大数据平台产品

    目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的Ambari作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台。我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品。最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚。后来想想如果公司如果有自己数据平台的产品后续在客户面前也能证明自己的技术实力且我个人也能从源码级别更深入的学习了解大数据生态圈的各个组件。

    03

    Ambari?自动部署Hadoop集群

    Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等)。它帮助我们更好的去管理Hadoop集群相关的服务,也支持一些扩展,可以让我们去定制一些服务。 你是不是为了配置hadoop集群伤透了脑筋?为了集群添加机器而头痛。如果你遇到了Ambari你就会发现,原来他就是你的救世主。 Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent。简单来说,用户通过 Ambari Server 通知 Ambari Agent 安装对应的软件;Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server,最终这些状态信息会呈现在 Ambari 的 GUI,方便用户了解到集群的各种状态,并进行相应的维护。 Ambari的详细介绍及相关信息可以浏览下面的网址,虽然他很NB,但是不是我们今天的重点! Ambari——大数据平台的搭建利器

    03
    领券