腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏作者

964

文章

2343426

阅读量

704

订阅数

0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager

数据库 yarn h2 queue 服务

CDP中的YARN Queue Manager是一个单独的服务，用来管理Capacity Scheduler配置，同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库，安装比较简单，但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中，用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库，给用户带来了困惑和不方便，尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题，让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制，本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。

2024-04-12

630

0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL

postgresql hive mysql 数据数据库

2.停止Hive服务，在配置中搜索“database”，修改数据库配置到MySQL库

2024-04-11

780

0915-7.1.7-Kafka Connectors for SAP HANA测试

数据 kafka hana sap 测试

Kafka原生没有提供SAP HANA的Connector，GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector，可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息，参考GitHub：https://github.com/SAP/kafka-connect-sap/tree/master

2024-04-10

1100

0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog

数据库 hive 连接数据异常

Doris支持多源数据目录（Multi-Catalog）功能，旨在能够更方便对接外部数据目录，以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上，新增一层Catalog，构成 Catalog -> Database -> Table 的三层元数据层级。其中，Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括：Apache Hive， Apache Iceberg 以及标准的JDBC接口(如MySQL)等

2024-04-10

1180

0913-7.7.1-Replication Manager使用优化

配置数据同步优化 replication

在当前CDP的大部分的场景中，PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息，而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的，而这些优化功能又需要基于这些统计信息来做优化，所以在一个已经稳定运行的生产环境中，对应的这两张表可能有非常庞大的数据量（上千万甚至于上亿）。

2024-03-05

760

0912-7.1.7-Impala同一查询耗时差距过大问题分析

impala 服务内存配置主机

本文档主要描述在日常业务业务查询过程中，元数据以及统计信息一切正常的情况下，发现同一SQL，在impala中查询kudu表，有时跑3~5秒，有时跑13多秒的情况分析过程和解决方式。

2023-12-11

1950

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

sql hive flink client 集群

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

2023-12-04

3370

0910-Apache Hive 4.x与Iceberg分支和标签

apache hive 生命周期数据标签

对于复杂的快照生命周期管理，Iceberg支持分支(branch)和标签(tag)，这些分支和标签是对具有自己独立生命周期的快照的命名引用，此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage)，指向谱系的头部。

2023-11-16

3660

0908-CDP Private Cloud Base 7.1.9正式GA

安全 cloud private 部署数据

八月再见，九月你好，今天是九月八日，新学年开始，Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能，同时它和CDP Base 7.1.7一样，也是一个长期支持版本（long-term release, LTS），EOS的时间为2027年九月。

2023-09-20

3910

0901-安装Python3.8

数据库 anaconda sql 云数据库 SQL Server parcel

CDP7.1.8及更高版本中Hue使用Python3环境，因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包，确保Hue通过驱动包可以正常的访问数据库，如下操作步骤主要基于CentOS7版本：

2022-12-14

7910

0900-7.1.7-如何设置Hive任务的超时时间

在Hive 日常跑批的情况下，如出现数据倾斜严重，或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源，从而导致其他任务因资源不够的情况而延迟。对于这种情况，用户可能期望该作业失败，来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数，合理的配置参数可以减少上述问题的发生。

2022-12-14

4.1K0

0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter

hive python spark jar

Zeppelin默认的管理权限是admins组，所以用户要加admins组才可以添加和修改interpreter

2022-12-14

8420

0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP

kafka kerberos SSL 证书 https 腾讯云测试服务

3.进入CM>Kafka>配置> Inter Broker Protocol，选择SASL_PLAINTEXT

2022-12-14

8350

0897-7.1.7-CDP中如何通过Ranger为UDF授权

jar java 云推荐引擎 hive 大数据

1.文档编写目的本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。测试环境 CDP7.1.7，集群启用了Kerberos 使用一个普通用户liuyq测试，该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下，用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put

2022-10-10

1.2K0

0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析

hive 专用宿主机 sql

将集群从CDH升级到CDP后，Hive1与Hive3在Decimal精度的处理上发生了变化，导致两个版本的Hive在进行Decimal类型的数据计算时存在差异，主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析，进而详细解释精度缺失的原因。

2022-09-27

1.9K0

0896-Cloudera Parcels介绍

Parcel是一种二进制分发格式，包含程序文件以及Cloudera Manager使用的其它元数据。安装包和Parcel之间的重要区别是： Parcel会被独立的安装在一个显示版本的文件夹中，这意味着你可以并行安装多个版本的Parcel。然后你在使用的时候将其中一个安装版本指定为活动版本。如果使用安装包的话，一次只能安装一个包，所以安装的包和活动的包没有区别。滚动升级需要Parcels。你可以在文件系统中的任何位置安装Parcel，它们默认安装在/opt/cloudera/parcels中。相反，软件包

2022-09-19

2K0

0895-Cloudera Manager的工作原理

大数据 hadoop

1.Cloudera Manager词汇下图说明了Cloudera Manager的基本名词和关系：一个Deployment代表了全部，包括Cluster。Cluster是一些运行相同版本CDH的Host的集合，不同的Host又会划给不同的Rack。Service是特定系统的实例，跨越了许多Role，每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式，这也是常见的情况。 Configuration被附加到多个上下文，并且可以酌情级联。例如存储DataNode日志文件的路径通常

2022-09-15

1.2K0

0894-如何在Kerberos环境下用Ranger给HDFS授权

大数据 kerberos

1.文档编写目的 Apache Ranger通过用户界面管理访问控制，以确保跨Cloudera Data Platform（CDP）组件进行一致的策略管理。使用Ranger，可以为特定资源（HDFS，HBase，Hive等）创建服务，并将访问策略添加到这些服务中。并且可以基于资源和标签来定制策略，以此来管理访问控制。本文档将介绍在Kerberos环境下使用Ranger为HDFS授权。 2.使用Ranger给HDFS授权 2.1.准备测试用户 1.在集群所有节点创建用户user1（如果部署了OpenLDAP则

2022-09-14

1.4K0

0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试

hive 访问管理腾讯云测试服务

1.文档编写目的本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D

2022-09-14

1.1K0

0892-7.1.7-如何将CDP从7.1.7升级到7.1.8

专用宿主机 parcel python jdk

1.Cloudera升级概述 CDP作为一个软件系统，安装成功后主要包含三部分：Cloudera Manager Server，Cloudera Manager Agent以及CDH Parcel，所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager，然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级，但是需要保证Cloudera Manager和CDH版本的兼容，具体的版本兼容情况

2022-09-08

1.1K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态