首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2437253
阅读量
707
订阅数
0890-7.1.6-如何在CDP集群配置Kerberos高可用
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置Kerberos的高可用。 文档概述 1.如何在CDP7集群配置Kerberos高可用 2.验证 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.备节点安装Kerberos服务 1.在备节点安装Kerberos服务,暂时不进行相关配置 [root@cdh1 ~]# yum install -y krb5-server openldap-clients krb5-workstation
Fayson
2022-08-31
1.1K0
0889-7.1.7-Hive on Tez解析以及日志分析
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
3.7K0
你问我答3 - 关于Hive CLI与Beeline
请教一下,这个是cdp测试过程中,我这边想把hive命令默认client改为原来的hive cli,修改了use_beeline_for_hive_cli为false后,命令输入hive报了java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning,我尝试过将tez的jar包复制到hive 的lib目录下和修改hive-site.xml中的hive.server2.active.passive.ha.enable为fals
Fayson
2022-08-26
1.3K0
你问我答2 - 关于CDH上的一些安全
就是假设 Hadoop 使用了 Kerberos 验证,且 Yarn 使用 LinuxContainerExecutor,那么当 NM 以提交 Job 的用户身份启动 Container 时,当前 Container 进程需要进行 Kerberos 验证 么? 如果需要的话,它是 NM 的 keytab 进行验证呢,还是 Job 提交者 keytab 需要安装到所有 NM host 节点上? ---- 你这个是个原理问题吧?如果cm启用kerberos,你提交作业其实不用管这些的呢。 ---- 嗯,是想把底
Fayson
2022-08-26
3960
你问我答1 - HDFS数据的写入原理
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
7870
0882-7.1.6-如何对HDFS进行节点内(磁盘间)数据平衡
1.文档编写目的 当HDFS的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况: 1.不同DataNode节点间数据不均衡; 2.挂载数据盘的磁盘间数据不均衡。 特别是这种情况:当DataNode原来是挂载了几个数据盘,当磁盘占用率很高之后,再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下,挂载新的数据盘就失去了扩容HDFS数据盘的意义。 如果想要解决节点内多块磁盘数据不均衡的现象,就要
Fayson
2022-07-19
1.8K0
0881-7.1.7-如何配置动态队列调度功能
作者:唐辉 1.文档编写目的 动态队列调度功能可以通过在预定义时间重新配置属性值来动态更改系统状态。目前还是技术预览版,生产使用需谨慎考虑 动态队列调度功能仅支持队列级资源分配配置。此外,该功能仅在relative 和absolute资源分配模式下受支持。 动态队列配置功能能够设置将预定义配置应用于 YARN 队列管理器系统的时间。 以下场景适合使用动态队列调度功能:  需要为集群安排两个队列状态,即状态 A 和状态 B。状态 A 应在上午 8 点至晚上 8 点使用,状态 B 应在晚上 8 点至上午 8
Fayson
2022-06-14
5430
2022年5月1日登罗浮山
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
3070
0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速
本文作者:BYD信息中心-数据中心管理部-董睿 进入正文之前先打一个小广告,手动狗头 比亚迪西安研发中心(与深圳协同办公),base西安,招聘大数据平台运维、架构方向的工程师,实时计算方向工程师,感兴趣的小伙伴请投递简历至dong.rui@byd.com 1.文档编写目的 RAPIDS 全称是Real-time Acceleration Platform for Integrated Data Science,是 NVIDIA 针对数据科学和机器学习推出的 GPU 加速库,RAPIDS的推出其实是为了弥补G
Fayson
2022-04-28
9450
0872-7.1.4-如何启用CGroup限制YARN CPU使用率
1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理分配CPU的使用率,使应用预期性能的运行,排除其他因素的影响下,如应用中每分配一个Vcore,预估它能处理多少数据,就需要启用CGroup对CPU进行严格的使用率限制来实现。 在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed
Fayson
2022-03-24
1.8K0
0862-CDP Private Cloud Base 7.1.7正式GA
2021年8月6日 1.升级增强 1.CDH6升级 CDH6客户可以直接从CDH 6.1.x, 6.2.x和6.3.x集群原地升级到CDP Private Cloud Base,而不需要搭建一个新的集群。 2.回滚操作文档 支持从CDH6升级到CDP7.1.7的回滚操作; 支持从HDP3升级到CDP7.1.6的回滚操作; 3.新的升级指南 现在docs.cloudera.com网站上提供了一个新的Upgrade Companion,为所有CDP升级相关活动提供一个集中的文档中心。Upgrade Compan
Fayson
2021-08-23
9920
0861-7.1.6-如何对Hive表小文件进行合并
HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存。HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间。本篇文章主要介绍在CDP7.1.6集群中如何对Hive表小文件进行合并。
Fayson
2021-08-23
1.9K0
0858-7.1.6-安装YARN Queue Manager服务启动异常分析
在CDP7.1.6的添加组件过程中,添加YARN Queue Manager后,启动服务过程中,提示启动Yarn Queue Manager Store角色失败。如下图:
Fayson
2021-07-28
1.1K0
0857-7.1.6-如何查看DAS中执行的Hive On Tez作业的日志
使用DAS查看日之前,需要先知道DAS如何安装,参考《0853-7.1.6-如何在CDP集群上安装DAS》,本篇文章主要介绍如何查看DAS中执行的Hive On Tez作业的日志。
Fayson
2021-07-28
1.7K0
0852-7.1.4-如何关闭CDP中ranger策略的审计
CDP集群中的ranger在添加新的策略的时候,默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长,海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需求选择是否关闭审计功能。本文主要是说明如何关闭ranger里面配置的策略的审计功能。
Fayson
2021-07-05
8640
0850-7.1.4-如何为distcp作业设置application tag
如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。
Fayson
2021-07-05
8870
0846-7.1.1-如何迁移HDP2.4中的Hive表到CDP7.1.1
随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过程中,我们首先面对的就是本地的HDFS数据迁移和Hive 表数据迁移,本文主要讲述如何迁移HDP2.4.2 Hive 表和数据到CDP 7.1.1中。
Fayson
2021-07-05
8960
0834-CDP Private Cloud Base 7.1.6正式GA
https://docs.cloudera.com/cdp-private-cloud-base/7.1.6/manager-release-notes/topics/cm-release-notes-731.html
Fayson
2021-04-19
9450
0832-如何安装及使用Prometheus
Prometheus 是一个具有维度数据模型,灵活的查询语言,高效的时间序列数据库和现代警报方法的开源监视系统。
Fayson
2021-04-19
2.3K1
0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析
本文描述了一次因为Zookeeper的异常导致ResourceManager卡住,从而导致集群所有作业无法提交的问题分析和处理。
Fayson
2021-03-11
1.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档