首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
964
文章
2344761
阅读量
704
订阅数
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.9K0
0892-7.1.7-如何将CDP从7.1.7升级到7.1.8
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
Fayson
2022-09-08
1.1K0
0888-7.1.6-如何在集群外安装多集群Gateway支持
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
8460
关于Apache Hadoop权限提升漏洞(CNVD-2022-51055)
基于下面这个链接,对应的CVE号为 CVE-2021-33036 https://www.cnvd.org.cn/flaw/show/CNVD-2022-51055 这个CVE已经在Cumulative hotfix 8 (CDP PvC Base 7.1.7.1037-2 )这个版本中fix了,可以通过以下链接找到CHF8的parcel包  https://archive.cloudera.com/p/cdh7/7.1.7.1037 因为CDH5或CDH6已经EOL(end of life)了, 所以Cl
Fayson
2022-08-26
7280
0875-7.1.7-如何在CentOS7.9中安装CDP Base
1.文档编写目的 本文档Fayson主要描述如何在CentOS7.9安装CDP Base7.1.7。CDP Base7与CDH5/6的安装步骤一致,主要包括以下四部分: 1.安全前置准备,包括安装操作系统、关闭防火墙、同步服务器时钟等; 2.外部数据库如MySQL安装 3.安装Cloudera Manager; 4.安装CDH集群; 测试环境 1.CM7.4.4+CDH7.1.7 2.CentOS7.9 3.OpenJDK1.8 4.MariaDB-5.5.64 5.root用户安装 前置准备 2.1 ho
Fayson
2022-04-13
1.9K0
0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用
1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案,是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台,用于构建具有增量数据管道的流式数据湖,具有如下基本特性/能力: Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集,主要目的是高效的减少入库延时。 Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。 Hudi在HDFS数据集上
Fayson
2022-03-21
2.7K0
0868-7.1.5-如何配置及使用Cloudera Replication Manager
Cloudera Replication Manager(以下简称为 RM,旧版本的CM中简称为BDR)为数据迁移提供了一个集成式的易用管理解决方案,通过界面化的方式可以非常便捷的定义不同集群之间的数据复制操作 ,本文主要介绍如何配置及使用RM进行HDFS和Hive 复制
Fayson
2021-12-07
1.3K1
0862-CDP Private Cloud Base 7.1.7正式GA
2021年8月6日 1.升级增强 1.CDH6升级 CDH6客户可以直接从CDH 6.1.x, 6.2.x和6.3.x集群原地升级到CDP Private Cloud Base,而不需要搭建一个新的集群。 2.回滚操作文档 支持从CDH6升级到CDP7.1.7的回滚操作; 支持从HDP3升级到CDP7.1.6的回滚操作; 3.新的升级指南 现在docs.cloudera.com网站上提供了一个新的Upgrade Companion,为所有CDP升级相关活动提供一个集中的文档中心。Upgrade Compan
Fayson
2021-08-23
9080
0860-5.16.2-如何统计Hive表的分区数、小文件数量和表大小
本篇文章主要介绍如何在CDH 5.16.2集群中获取所有Hive表的分区数、小文件数量、表大小。
Fayson
2021-08-23
4K0
0852-7.1.4-如何关闭CDP中ranger策略的审计
CDP集群中的ranger在添加新的策略的时候,默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长,海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需求选择是否关闭审计功能。本文主要是说明如何关闭ranger里面配置的策略的审计功能。
Fayson
2021-07-05
8070
0849-7.1.6-如何跨集群从CDH到CDP迁移Kudu表
在之前的文档《如何通过Hive跨集群迁移Kudu表》,通过Hive 进行跨集群迁移Kudu 表是一种效率较低但是非常通用的方式,本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。
Fayson
2021-07-05
1.3K0
0850-7.1.4-如何为distcp作业设置application tag
如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。
Fayson
2021-07-05
7850
0845-7.1.6-集群外配置Kerberos环境的Gateway节点
在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作,这时又不想将该节点添加到CDH/CDP集群中管理,本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。
Fayson
2021-07-05
8950
0843-7.1.6-如何在CDP中部署Flink1.12
本篇文章主要介绍如何在CDP 7.1.6集群中使用Parcel的方式安装Flink1.12。
Fayson
2021-07-05
9920
0842-7.1.6-如何使用authzmigrator 工具迁移Sentry权限到Ranger
1.CDP 的 CM 节点与 CDH 的元数据库节点没有网络限制,并且CDP 集群中的CM节点可以正常使用 sentry 元数据的用户密码登陆 CDH 的 sentry 元数据库
Fayson
2021-07-05
1.8K1
CDP Private Cloud Base 7.1.4正式GA
2020年10月27日 1.平台支持 如果使用Oracle 12作为元数据库,支持从HDP2.x到DC-Ambari的原地升级; 支持使用Oracle 19作为元数据库,包括全新安装和升级; 支持SLES 12 SP5操作系统,包括全新安装和升级; 支持Postgres 11作为元数据库,支持全新安装和DC-Ambari; 2.功能 Hive 新增参数:hive.create.as.external.legacy,新增建表语法:CREATE [MANAGED] TABLE,方便老的CDH5/CDH6用户保
Fayson
2021-04-19
8790
0829-5.15.1-Hive锁表导致CM无法启动异常分析
本文描述了一次CDH集群中,Hive锁表导致集群元数据MySQL的Hive MetaStore锁表,从而引起CM服务中断并且无法重启的异常分析。
Fayson
2021-03-11
1.3K0
0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析
本文描述了一次因为Zookeeper的异常导致ResourceManager卡住,从而导致集群所有作业无法提交的问题分析和处理。
Fayson
2021-03-11
1.2K0
0826-5.16.2-如何读取和分析Zookeeper Transaction Log 和Snapshots
在进行故障排除时,我们可能希望深入了解二进制形式的Zookeeper事务日志和快照,以便从中获取更多可读信息。本文描述了如何通过读取Zookeeper事务日志和快照来排查zookeeper相关问题。
Fayson
2020-12-29
1.5K0
0821-7.1.1-Impala多并发查询异常分析
本文描述了在一次TPC-DS测试中,使用Impala对原始10TB的parquet格式表数据,使用snappy压缩后4.2TB数据进行查询时,出现The service queue contains 0 items out of a maximum of 2147483647; memory consumption is 50.59 MB.atement: 异常的分析和处理。
Fayson
2020-12-14
2.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档