首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
964
文章
2344932
阅读量
704
订阅数
0895-Cloudera Manager的工作原理
1.Cloudera Manager词汇 下图说明了Cloudera Manager的基本名词和关系: 一个Deployment代表了全部,包括Cluster。Cluster是一些运行相同版本CDH的Host的集合,不同的Host又会划给不同的Rack。Service是特定系统的实例,跨越了许多Role,每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式,这也是常见的情况。 Configuration被附加到多个上下文,并且可以酌情级联。例如存储DataNode日志文件的路径通常
Fayson
2022-09-15
1.2K0
0888-7.1.6-如何在集群外安装多集群Gateway支持
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
8460
你问我答1 - HDFS数据的写入原理
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
6910
Apache Impala 4.0技术揭秘与最新进展
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
5820
0846-7.1.1-如何迁移HDP2.4中的Hive表到CDP7.1.1
随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过程中,我们首先面对的就是本地的HDFS数据迁移和Hive 表数据迁移,本文主要讲述如何迁移HDP2.4.2 Hive 表和数据到CDP 7.1.1中。
Fayson
2021-07-05
8550
0845-7.1.6-集群外配置Kerberos环境的Gateway节点
在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作,这时又不想将该节点添加到CDH/CDP集群中管理,本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。
Fayson
2021-07-05
8950
0839-1.7.2-如何启用CDSW的reserve master功能
Cloudera Data Science Workbench允许保留Master节点,以运行内部应用程序组件和服务(例如Livelog,PostgreSQL数据库等),而用户工作负载仅在Worker节点上运行。
Fayson
2021-04-30
5790
0793-5.16.2-如何迁移单个Zookeeper实例
随着集群规模的不断扩大,在对集群进行调整优化时。时常会考虑对集群的角色进行优化调整,这就会涉及到服务角色的迁移。本篇文章主要介绍如何将Zookeeper服务的单个实例从一个节点迁移到其他节点。
Fayson
2020-08-03
1.2K0
0766-6.3.3-如何实现Kafka跨网络访问
在使用Kafka时会遇到内外网的场景,即Kafka集群使用内网搭建,在内网和外网均有客户端需要消费Kafka的消息,同时在集群内由于使用内网环境通信,因此不必太过考虑通信的加密,所以在内网使用非安全的协议也能够通信,但对于外网环境出于安全考虑,只允许通过安全的协议访问Kafka集群,本文档介绍如何基于双网卡来配置Kafka。
Fayson
2020-05-16
3K0
0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证
数据质量平台基于定义好的数据稽核和数据质量规则,生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一获取某Hadoop集群上Hive表的数据:
Fayson
2020-04-26
3K0
0759-Kafka2.3性能测试
了解Kafka的性能指标可以很好的帮助你规划Kafka集群,但使用不同的消息大小,保留时间(retention periods),分区,复制因子,网络速度,甚至是同步还是异步都可能影响到对Kafka集群的硬件配置和大小的规划。几年前,Linkedin做过一个Kafka的基准测试,参考:
Fayson
2020-04-21
1.1K0
重磅 | Hadoop的第二个十年
https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713
Fayson
2020-02-18
5720
0741-什么是Apache Ranger - 1
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
Fayson
2020-02-10
1.6K0
0484-Cloudera和Hortonworks合并后面临的选择
Cloudera与Hortonworks两家公司在前一段时间提出来合并,虽然两家公司都同时强调两者在产品或者技术上的互补性,但其实合并后的公司也面临一些艰难的选择,可能会对各种与Hadoop相关的开源Apache项目产生较大的影响。本文主要讨论它们接下来可能会如何发展。
Fayson
2019-11-28
1.4K0
0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
受前段时间Oracle官宣的从2019年1月之后将不再提供免费的的JDK商业版本的影响,Cloudera开始开发基于OpenJDK的Hadoop平台,参考Fayson之前的文章《Java收费,Hadoop怎么办?》。今年11月29日,Cloudera才发布不久的CDH5.16.1正式提供OpenJDK的支持,参考Fayson之前的文章《0466-CDH5.16.1和CM5.16.1的新功能》和《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》。同时12月19日发布的《0487-CDH6.1的新功能》和《0488-Cloudera Manager6.1的新功能》,也开始支持OpenJDK。本文Fayson主要介绍如何将CDH6.1从Oracle JDK迁移到OpenJDK。
Fayson
2019-11-28
1.1K0
Cloudera与Hortonworks合并完成
Hadoop大数据领域最大的两家公司Cloudera和Hortonworks在1月3日宣布,完成了所有股票的合并。新的公司会继续使用‘Cloudera’这个品牌,并且在纽交所的交易代号依旧是CLDR。
Fayson
2019-11-28
1.1K0
0508-如何使用Hadoop的Archive处理小文件
Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等,在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力,导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。
Fayson
2019-11-28
2.4K0
0509-深入分析CDH的安装目录
如果采用Cloudera官方建议的安装方式,即Cloudera Manager使用rpm的方式安装,CDH使用Parcel方式安装,会在操作系统内产生多种多样的目录。CDH安装主要使用的目录包括/etc,/usr,/var,/tmp,/opt共5个目录,不同的目录下保存不同的子文件夹以及多种多样不同的文件内容主要涉及比如安装包,配置文件,执行命令脚本等。本文Fayson会详细讲解各个目录的作用以及建议规划的大小。
Fayson
2019-11-28
1.8K0
0517-如何在CDH5中使用单用户模式
我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。
Fayson
2019-11-28
1.8K0
0529-5.15.0-这次玩儿大了,找不回了
前两天客户问了一个问题,HDFS上删除的数据还能不能恢复?碰到这个问题第一反应“在执行命令的这个用户下垃圾回收站找到恢复不就的了?”,用户删除数据发现操作失误的时间并不长也没有超过垃圾回收站的清空时间,但是无论怎么找也找不到被删除的数据,这次真的玩儿大了。。。
Fayson
2019-11-28
1.2K1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档