首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
960
文章
2313459
阅读量
704
订阅数
0913-7.7.1-Replication Manager使用优化
在当前CDP的大部分的场景中,PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息,而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的,而这些优化功能又需要基于这些统计信息来做优化,所以在一个已经稳定运行的生产环境中,对应的这两张表可能有非常庞大的数据量(上千万甚至于上亿)。
Fayson
2024-03-05
580
0912-7.1.7-Impala同一查询耗时差距过大问题分析
本文档主要描述在日常业务业务查询过程中,元数据以及统计信息一切正常的情况下,发现同一SQL,在impala中查询kudu表,有时跑3~5秒,有时跑13多秒的情况分析过程和解决方式。
Fayson
2023-12-11
1730
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
2990
0910-Apache Hive 4.x与Iceberg分支和标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
3000
0908-CDP Private Cloud Base 7.1.9正式GA
八月再见,九月你好,今天是九月八日,新学年开始,Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能,同时它和CDP Base 7.1.7一样,也是一个长期支持版本(long-term release, LTS),EOS的时间为2027年九月。
Fayson
2023-09-20
3460
0901-安装Python3.8
CDP7.1.8及更高版本中Hue使用Python3环境,因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包,确保Hue通过驱动包可以正常的访问数据库,如下操作步骤主要基于CentOS7版本:
Fayson
2022-12-14
7600
0900-7.1.7-如何设置Hive任务的超时时间
在Hive 日常跑批的情况下,如出现数据倾斜严重,或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源,从而导致其他任务因资源不够的情况而延迟。对于这种情况,用户可能期望该作业失败,来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数,合理的配置参数可以减少上述问题的发生。
Fayson
2022-12-14
3.9K0
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
8080
0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP
3.进入CM>Kafka>配置> Inter Broker Protocol,选择SASL_PLAINTEXT
Fayson
2022-12-14
8120
0897-7.1.7-CDP中如何通过Ranger为UDF授权
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.1K0
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.8K0
0896-Cloudera Parcels介绍
Parcel是一种二进制分发格式,包含程序文件以及Cloudera Manager使用的其它元数据。安装包和Parcel之间的重要区别是: Parcel会被独立的安装在一个显示版本的文件夹中,这意味着你可以并行安装多个版本的Parcel。然后你在使用的时候将其中一个安装版本指定为活动版本。如果使用安装包的话,一次只能安装一个包,所以安装的包和活动的包没有区别。 滚动升级需要Parcels。 你可以在文件系统中的任何位置安装Parcel,它们默认安装在/opt/cloudera/parcels中。相反,软件包
Fayson
2022-09-19
2K0
0895-Cloudera Manager的工作原理
1.Cloudera Manager词汇 下图说明了Cloudera Manager的基本名词和关系: 一个Deployment代表了全部,包括Cluster。Cluster是一些运行相同版本CDH的Host的集合,不同的Host又会划给不同的Rack。Service是特定系统的实例,跨越了许多Role,每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式,这也是常见的情况。 Configuration被附加到多个上下文,并且可以酌情级联。例如存储DataNode日志文件的路径通常
Fayson
2022-09-15
1.1K0
0894-如何在Kerberos环境下用Ranger给HDFS授权
1.文档编写目的 Apache Ranger通过用户界面管理访问控制,以确保跨Cloudera Data Platform(CDP)组件进行一致的策略管理。使用Ranger,可以为特定资源(HDFS,HBase,Hive等)创建服务,并将访问策略添加到这些服务中。并且可以基于资源和标签来定制策略,以此来管理访问控制。本文档将介绍在Kerberos环境下使用Ranger为HDFS授权。 2.使用Ranger给HDFS授权 2.1.准备测试用户 1.在集群所有节点创建用户user1(如果部署了OpenLDAP则
Fayson
2022-09-14
1.3K0
0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。 文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D
Fayson
2022-09-14
1.1K0
0892-7.1.7-如何将CDP从7.1.7升级到7.1.8
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
Fayson
2022-09-08
1.1K0
0891-CDP Private Cloud Base 7.1.8正式GA
八月再见,九月你好,今天是九月一日,新学年开始,Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能,比如通过EC提升Ozone的存储效率,Cloudera Manager的HA,多NameNode支持,全面支持Impala4.0,Hive性能提升,HDFS/Schema Registry血缘功能的增强,改进Ranger RMS,以及实时平台的全面增强。 1.平台支持增强 1.新的操作系统支持 CDP Private Cloud Ba
Fayson
2022-09-02
8901
0890-7.1.6-如何在CDP集群配置Kerberos高可用
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置Kerberos的高可用。 文档概述 1.如何在CDP7集群配置Kerberos高可用 2.验证 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.备节点安装Kerberos服务 1.在备节点安装Kerberos服务,暂时不进行相关配置 [root@cdh1 ~]# yum install -y krb5-server openldap-clients krb5-workstation
Fayson
2022-08-31
9240
0889-7.1.7-Hive on Tez解析以及日志分析
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
2.8K0
0888-7.1.6-如何在集群外安装多集群Gateway支持
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
7970
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档