版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51601989
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51768968
>>>>>>>>>>>>>>>>>>>>>>>>>自搭建完成,有问题评论,经常在线<<<<<<<<<<<<<<<<<<<<<<<<<
有读者指出我文章不够严谨,Cloudera Manager是一直可以下载的。我仔细看了一下,这的确是我不够严谨,Cloudera Manager的确是可以免费下载。只是所有enterprise相关的功能只给了60天的试用期。而Cloudera manager没有了那些enterpise的功能也就聊胜于无了。再此就错误道个歉。 Hadoop的世界里,Hortonworks算是一个不知道应该怎么去描述的角色了。这个公司起源于2011年Yahoo的spinoff。说白了就是在Yahoo和其他人的投资下,原来
除了常见的standalone模式,Flink还支持将任务提交到Yarn环境执行,任务所需的计算资源由Yarn Remource Manager来分配,如下图(来自Flink官网):
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM。 CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的components:HBase, Hive, ZooKeeper,Kafka等。 CM是cloudera manager的简称,是CDH的管理平台,主要包括CM s
ansible是常用的运维工具,可大幅度简化整个部署过程,接下来会使用ansible来完成部署工作,如果您对ansible还不够了解,请参考《ansible2.4安装和体验》,部署操作如下图所示,在一台安装了ansible的电脑上运行脚本,由ansible远程连接到一台CentOS7.7的服务器上,完成部署工作:
swappiness是Linux的一个内核参数,控制系统在使用swap虚拟内存时,内存使用的相对权重。
请务必注意CDP Data Center的安装前置条件,请到https://docs.cloudera.com/cloudera-manager/7.1.1/installation/topics/cdpdc-requirements-supported-versions.html 查询对应版本的前提条件。对应CDP数据中心版7.1来讲,前提条件包括如下:
Cloudera Manager 分为两个部分:CDH和CM。
在公有云或者内外网环境中,Cloudera的平台产品CDH/CDP/HDP需要访问很多Web UI,但系统网络可能仅支持SSH访问(22端口)。要访问Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:
工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。
Cloudera Manager支持三种方式的告警输出,在前面的文章《如何为CDH集群配置警报邮箱》和《如何通过Cloudera Manager配置使用SNMP方式转发告警》Fayson介绍了邮件和SNMP两种方式的告警接入,那Cloudera Manager还支另外一种自定义告警脚本方式接入告警,本篇文章Fayson主要介绍如何使用自定义告警脚本的方式将CM告警输出。
由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。接下来的日子里,小编将带大家一起学习搭建CDH。
ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台,它是基于python语言,由Paramiko和PyYAML两个关键模块构建。集合了众多运维工具的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能.ansible是基于模块工作的,本身没有批量部署的能力.真正具有批量部署的是ansible所运行的模块,ansible只是提供一种框架.ansible不需要在远程主机上安装client/agents,因为它们是基于ssh来和远程主机通讯的.
借助ansible简化了CDH6部署工作的大部分内容,也降低了手工操作失误的概率,今天实战的内容,是在一台安装了ansible的电脑上(苹果或Linux操作系统)运行ansible脚本,远程操作一台CentOS服务器,在上面部署CDH6,并操作验证本次部署是否成功。
本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点,但不会探讨这些工具的核心功能。
注意,配置是根据之前安装Linux时生成的以太网配置修改的,这里将IP地址改成了 192.168.232.129
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/sbin
Centos 7+CDH5.7.2全部署流程 一、前期准备 1、虚拟机配置 这个配置是我在网上看到的,我就借用了这个配置: 主节点:8g内存、硬盘80g 从节点:2g内存、硬盘80g 安装系统的时候,我建议将IP和主机名都给配置好,这样就省的在系统中进行配置了,当然下面也有在系统中配置的方法。 所以如果你要使用虚拟机来完成这个配置的话,那么,你的主机的配置内存就不能低于16G了。而且还要找一个盘符较大的磁盘空间,不然到后面操作CDH的时候会很尴尬,我第一次就被卡在了硬
此方案为暂定方案,有可能会变更。如果直接使用CDH会更加方便,但是如果进行自行配置,需要做实验。
问题导读: 1.安装cdh5伪分布配置文件在什么位置? 2.不同的操作系统,cdh5的安装过程都包含哪些流程? 3.在yarn上运行wordcount都需要哪些准备? 4.CDH5是如何安装的? 简介: 如果安装过Cloudera Manager5,我们可能会知道,这个安装还是比较曲折的,因为一旦网络中断,那么我们的安装失败率还是比较高的。如果我们只想了解CDH,我们安装CDH5.CDH5该如何安装,而它的安装确实比hadoop要简单些,我们这里介绍单节点伪分布安装及如何在yarn上运行word
https://www.cloudera.com/documentation/enterprise/6/6.0.html
wget –P /etc/yum.repos.d https://archive.cloudera.com/cm5/RedHat/7/x86_64/cm/cloudera-manager.repo
大家都知道在安装CDH时默认安装的JDK版本为jdk1.7.0_67,部分企业开发环境为JDK8版本,这个时候可能会出现在本地开发的应用在集群中无法正常运行。前面Fayson也讲过《如何将CDH集群JAVA升级至JDK8》。本篇文章主要讲述如何将Kerberos环境下CDH集群的JAVA版本升级至JDK8。
(此处使用OpenJDK8U-jdk_x64_linux_hotspot_8u302b08.tar)
【前置条件:需准备一台Linux or Mac OS 机器, 并且安装好了Docker 应用】
SELinux是Security Enhance Linux的缩写,是NASA开发的一套严格的资源权限管理系统,由于使用起来比较复杂,所以一般选择关闭
前置条件:需准备一台Linux or Mac OS 机器, 并且安装好了Docker 应用
Cloudera Impala支持Hadoop数据集上的低延迟交互式查询,这些数据集可以存储在Hadoop分布式文件系统(HDFS)或Hadoop的分布式NoSQL数据库HBase中。Impala的想法是使用Hadoop作为存储引擎,但远离MapReduce算法。相反,Impala使用分布式查询,这是一种从大规模并行处理数据库继承而来的概念。因此,Impala支持类SQL语言的查询(与Apache Hive相同),但可以比Hive更快地执行查询,将它们转换为MapReduce。您可以在之前的文章中找到有关Impala的更多详细信息。
Grafana 是一款采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。通过自带的控件或者第三方可以做出非常炫酷的界面,也能非常直观的展示各项监控指标,本文主要讲述如何安装Grafana并使用Cloudera Manager datasource 插件
大家都知道在安装CDH时默认安装的JDK版本为jdk1.7.0_67,部分企业开发环境为JDK8版本,这个时候可能会出现在本地开发的应用在集群中无法正常运行。那么如何将CDH集群中的JAVA版本升级至jdk8呢?本篇文章主要讲述如何将CDH集群的JAVA版本升级至JDK8。
之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的:
Impala提供了多种访问方式如impala-shell、beeline、JDBC以及ODBC等方式,关于beeline、JDBC的连接方式可以参考Fayson前面的文章《如何使用java代码通过JDBC连接Impala(附Github源码)》和《如何使用Beeline连接Impala》,本篇文章主要介绍如何在Linux上安装及配置Impala ODBC驱动。学习本章知识前你还需要知道《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》和《如何使用HAProxy实现Impala的负载均衡》。
加密是使用数字密钥对各种组件(例如文本,文件,数据库,密码,应用程序或网络数据包)进行编码的过程,因此只有适当的实体(用户,系统进程等)才能进行解码(解密) )项,然后查看,修改或添加到数据中。Cloudera提供了加密机制来保护持久保存在磁盘或其他存储介质上的数据(静态数据或简单地称为数据加密)以及在网络上移动时的数据(传输加密中的数据)。
Cloudera在2018年11月29日发布了CDH5.16.1,新功能介绍可以参考Fayson之前的文章《0466-CDH5.16.1和CM5.16.1的新功能》。本文档主要描述如何在Redhat7.4安装CDH5.16.1。Cloudera大数据平台的安装主要分为4个步骤:
2. 环境配置 2.1 基本配置(本配置在CM机器上操作,其他机器秩序操作 前三步) (1) 修改network (修改计算机标示名)
在 Cloudera,我们一直相信自动化是交付安全、随时可用且配置良好的平台的关键。因此,我们很高兴地宣布公开发布基于 Ansible 的自动化来部署 CDP 私有云基础集群。通过以这种方式自动化集群部署,您可以降低配置错误的风险,促进环境中跨多个集群的一致部署,并帮助更快地交付业务价值。
目录 常用工具安装 一、安装依赖包 二、安装Apache 三、添加MySQL驱动包 四、禁用交换空间 五、禁用透明页 六、配置本地Parcel存储库 七、配置CM的YUM源 八、安装CDH所需要的依赖包 九、安装MySQL 十、安装JDK 常用工具安装 一、安装依赖包 如果不提前安装这些依赖包,在后面安装CM的时候可能会出现异常。 yum install -y cyrus-sasl-plain cyrus-sa
CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。通过 CDH 可以使集群的安装从几天的时间缩短为几个小时。
在未部署统一身份管理系统时,管理员需要分别在每一台主机上为对应的系统管理员创建、维护账号和密码,无法进行统一的管理。当主机数量增加到一定程度后,也将难以进行有效的安全管理,对账号密码泄露等问题难以进行控制。统一身份认证系统可以帮助我们解决这一问题。Windows环境下可以使用域账号进行身份管理,而在Linux环境下,FreeIPA可以快速、便捷的将linux系统接入,进行统一的身份认证和权限管理。
在前面的文章中,Fayson介绍过《如何升级Cloudera Manager和CDH》,在实际使用过程中,我们往往会碰到将集群升级到一个较新的版本后,会出现一些莫名其妙的问题,为了保证生产系统的稳定运行,在无法快速定位问题的情况下,这时需要对集群进行降级。本文主要介绍如何对集群进行Cloudera Manager和CDH的降级。
Fayson今天在集群中浏览HDFS数据目录时发现,通过Cloudera Manager的“文件浏览”功能可以正常的浏览某一个HDFS数据目录,如下显示:
如果是新手,请严格按照步骤来做。当然还有其他安装方式,这里讲的方式比较适合测试使用。
出于CDH集群安全考虑,在CDH集群中增加了Kerberos认证机制。因为HBase的存储系统是基于Hadoop的存储,所以通过HBase客户端访问HBase数据库时需要进行身份认证。在Linux下使用HBase客户端访问HBase数据时需要先kinit初始化Kerberos账号,认证完成后我们就可以直接使用HBase shell操作HBase了。通过Linux的Kinit命令可以方便的完成Kerberos的认证,那么在Java开发中如何完成Kerberos的登录认证呢?本篇文章主要讲述如何使用Java连接Kerberos环境的HBase。
1.bin文件: http://archive.cloudera.com/cm5/installer/5.3.6/cloudera-manager-installer.bin 2.依赖rpm包 : http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.3.6/RPMS/x86_64/ 下所有的rpm包
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Cloudera在2018年6月12日发布了CDH5.15,新功能介绍可以参考Fayson之前的文章《CDH5.15和CM5.15的新功能》。本文档主要描述如何在Redhat7.4安装CDH5.15。Cloudera企业级数据中心的安装主要分为5个步骤
HDFS(Hadoop Distributed File System)的架构概述,如图2-4所示。
CDP数据中心版7.0.3是Cloudera与Hortonworks合并后,第一个融合CDH和HDP所有组件的on-premise版本,CDP Data Center主要由Cloudera Runtime构成,Cloudera Runtime由超过35个开源项目组成,当然CDP Data Center还包括其它功能如管理功能Cloudera Manager,Key Management,专业支持等.
一般而言,一个集群上很少只跑一个业务,大多数情况都是多个业务共享集群,实际上就是共享系统软硬件资源。
领取专属 10元无门槛券
手把手带您无忧上云