首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2438347
阅读量
707
订阅数
0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager
CDP中的YARN Queue Manager是一个单独的服务,用来管理Capacity Scheduler配置,同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库,安装比较简单,但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中,用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库,给用户带来了困惑和不方便,尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题,让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制,本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。
Fayson
2024-04-12
1730
0889-7.1.7-Hive on Tez解析以及日志分析
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
3.7K0
0881-7.1.7-如何配置动态队列调度功能
作者:唐辉 1.文档编写目的 动态队列调度功能可以通过在预定义时间重新配置属性值来动态更改系统状态。目前还是技术预览版,生产使用需谨慎考虑 动态队列调度功能仅支持队列级资源分配配置。此外,该功能仅在relative 和absolute资源分配模式下受支持。 动态队列配置功能能够设置将预定义配置应用于 YARN 队列管理器系统的时间。 以下场景适合使用动态队列调度功能:  需要为集群安排两个队列状态,即状态 A 和状态 B。状态 A 应在上午 8 点至晚上 8 点使用,状态 B 应在晚上 8 点至上午 8
Fayson
2022-06-14
5450
0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速
本文作者:BYD信息中心-数据中心管理部-董睿 进入正文之前先打一个小广告,手动狗头 比亚迪西安研发中心(与深圳协同办公),base西安,招聘大数据平台运维、架构方向的工程师,实时计算方向工程师,感兴趣的小伙伴请投递简历至dong.rui@byd.com 1.文档编写目的 RAPIDS 全称是Real-time Acceleration Platform for Integrated Data Science,是 NVIDIA 针对数据科学和机器学习推出的 GPU 加速库,RAPIDS的推出其实是为了弥补G
Fayson
2022-04-28
9450
0872-7.1.4-如何启用CGroup限制YARN CPU使用率
1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理分配CPU的使用率,使应用预期性能的运行,排除其他因素的影响下,如应用中每分配一个Vcore,预估它能处理多少数据,就需要启用CGroup对CPU进行严格的使用率限制来实现。 在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed
Fayson
2022-03-24
1.8K0
0862-CDP Private Cloud Base 7.1.7正式GA
2021年8月6日 1.升级增强 1.CDH6升级 CDH6客户可以直接从CDH 6.1.x, 6.2.x和6.3.x集群原地升级到CDP Private Cloud Base,而不需要搭建一个新的集群。 2.回滚操作文档 支持从CDH6升级到CDP7.1.7的回滚操作; 支持从HDP3升级到CDP7.1.6的回滚操作; 3.新的升级指南 现在docs.cloudera.com网站上提供了一个新的Upgrade Companion,为所有CDP升级相关活动提供一个集中的文档中心。Upgrade Compan
Fayson
2021-08-23
9930
0858-7.1.6-安装YARN Queue Manager服务启动异常分析
在CDP7.1.6的添加组件过程中,添加YARN Queue Manager后,启动服务过程中,提示启动Yarn Queue Manager Store角色失败。如下图:
Fayson
2021-07-28
1.1K0
0857-7.1.6-如何查看DAS中执行的Hive On Tez作业的日志
使用DAS查看日之前,需要先知道DAS如何安装,参考《0853-7.1.6-如何在CDP集群上安装DAS》,本篇文章主要介绍如何查看DAS中执行的Hive On Tez作业的日志。
Fayson
2021-07-28
1.7K0
0850-7.1.4-如何为distcp作业设置application tag
如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。
Fayson
2021-07-05
8880
0834-CDP Private Cloud Base 7.1.6正式GA
https://docs.cloudera.com/cdp-private-cloud-base/7.1.6/manager-release-notes/topics/cm-release-notes-731.html
Fayson
2021-04-19
9450
0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析
本文描述了一次因为Zookeeper的异常导致ResourceManager卡住,从而导致集群所有作业无法提交的问题分析和处理。
Fayson
2021-03-11
1.3K0
0823-5.15.1-HDFS慢导致Hive查询慢问题分析
CDH集群在业务高峰的时候,偶尔会出现Hive 查询慢的现象,本文通过分析Hive出现查询慢时候的集群状态,查找导致Hive查询慢的原因。
Fayson
2020-12-14
3.3K0
0812-5.16.2-如何获取CDSW上提交Spark作业的真实用户
在一个CDSW环境中,由于其中一个租户经常提交大型Spark作业将YARN上租户所在的资源池资源用到95%以上,从而影响到同一租户下其他用户提交作业的运行。这种情况下我们没办法直接找到这些大型作业的实际提交人,是因为我们在为CDSW做多租户配置的时候会将登录CDSW的某一批用户统一绑定到同一个租户下(这样设计的目的主要是为了简化YARN的租户管理,而不用为每个用户创建资源池队列),所以导致在YARN的界面上看到的都是同一个租户,而无法对应到实际CDSW的用户以及这个人提交的大型作业。本文主要描述通过修改Spark的配置来将作业的实际提交人的用户名展示到Spark UI,非CDSW的YARN的多租户管理也会碰到类似问题。
Fayson
2020-09-30
8280
0808-7.1.1-如何在CDP7.1.1指定Hive SQL的资源池队列
Fayson在CDP7.1.1 的使用过程中,发现在使用Hive SQL 中默认无法修改Hive 的资源池,只能提交到defalut 或者 root.hive 队列下,而且显示的提交用户都是hive。这对于一个生产环境中的资源池管理是致命的缺陷,本文主要介绍在CDP7.1.1中如何配置用户的Hive SQL 的资源池队列
Fayson
2020-09-04
2.3K1
0802-Cloudera Data Center7.1.3正式GA
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
Fayson
2020-08-20
1.1K0
0785-基于CDP7.1.1的Spark3.0技术预览版本发布
今天Cloudera正式宣布发布CDS3,基于Apache Spark 3.0 preview2 release,参考:
Fayson
2020-06-19
1.2K0
0778-7.0.3-如何在CDP中实现你的第一个Spark例子
先new -> directory 再 make directory as -> sources Root
Fayson
2020-06-04
7720
0760-7.0.3-如何使用Cloudera Manager设置使用YARN队列的ACL
YARN的队列默认支持ACL的功能,即可以控制哪些用户/组可以提交任务到指定队列,也可以控制哪些用户/组可以管理该队列的作业(删除作业)。通过YARN Queue Manager UI可以界面化配置YARN的资源队列,队列权重,队列资源,以及队列的ACL等。本文主要讲述如何在CDP DC 7.0.3集群上使用YARN Queue Manager UI来控制队列的ACL。
Fayson
2020-04-21
1.9K0
0761-7.0.3-如何使用YARN Queue Manager UI配置集群资源
在CDP DC上,YARN资源的调度程序默认为Capacity Scheduler。我们可以通过YARN Queue Manager UI来界面化配置YARN的资源队列,队列权重,队列资源,以及队列的ACL等。本文主要讲述如何在CDP DC 7.0.3集群上使用YARN Queue Manager UI来控制队列的资源分配和队列的提交策略。
Fayson
2020-04-21
2.8K0
0747-5.16.2-YARN日志聚合目录说明
日志聚合是YARN提供的日志集中化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个集中式存储和分析机制。默认情况下,Container任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后,日志被转移到的HDFS目录,默认是/tmp/logs。本文将模拟修改该目录,然后又将其修改回默认。
Fayson
2020-02-18
3.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档