腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏作者

964

文章

2339486

阅读量

704

订阅数

0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL

postgresql hive mysql 数据数据库

2.停止Hive服务，在配置中搜索“database”，修改数据库配置到MySQL库

2024-04-11

760

0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog

数据库 hive 连接数据异常

Doris支持多源数据目录（Multi-Catalog）功能，旨在能够更方便对接外部数据目录，以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上，新增一层Catalog，构成 Catalog -> Database -> Table 的三层元数据层级。其中，Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括：Apache Hive， Apache Iceberg 以及标准的JDBC接口(如MySQL)等

2024-04-10

1080

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

sql hive flink client 集群

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

2023-12-04

3310

0910-Apache Hive 4.x与Iceberg分支和标签

apache hive 生命周期数据标签

对于复杂的快照生命周期管理，Iceberg支持分支(branch)和标签(tag)，这些分支和标签是对具有自己独立生命周期的快照的命名引用，此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage)，指向谱系的头部。

2023-11-16

3600

0900-7.1.7-如何设置Hive任务的超时时间

在Hive 日常跑批的情况下，如出现数据倾斜严重，或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源，从而导致其他任务因资源不够的情况而延迟。对于这种情况，用户可能期望该作业失败，来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数，合理的配置参数可以减少上述问题的发生。

2022-12-14

4.1K0

0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter

hive python spark jar

Zeppelin默认的管理权限是admins组，所以用户要加admins组才可以添加和修改interpreter

2022-12-14

8410

0897-7.1.7-CDP中如何通过Ranger为UDF授权

jar java 云推荐引擎 hive 大数据

1.文档编写目的本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。测试环境 CDP7.1.7，集群启用了Kerberos 使用一个普通用户liuyq测试，该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下，用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put

2022-10-10

1.2K0

0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析

hive 专用宿主机 sql

将集群从CDH升级到CDP后，Hive1与Hive3在Decimal精度的处理上发生了变化，导致两个版本的Hive在进行Decimal类型的数据计算时存在差异，主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析，进而详细解释精度缺失的原因。

2022-09-27

1.9K0

0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试

hive 访问管理腾讯云测试服务

1.文档编写目的本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D

2022-09-14

1.1K0

0891-CDP Private Cloud Base 7.1.8正式GA

hive 大数据 kafka hbase api

八月再见，九月你好，今天是九月一日，新学年开始，Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能，比如通过EC提升Ozone的存储效率，Cloudera Manager的HA，多NameNode支持，全面支持Impala4.0，Hive性能提升，HDFS/Schema Registry血缘功能的增强，改进Ranger RMS，以及实时平台的全面增强。 1.平台支持增强 1.新的操作系统支持 CDP Private Cloud Ba

2022-09-02

9171

0889-7.1.7-Hive on Tez解析以及日志分析

hive sql yarn node.js mapreduce

1.Tez简介 Tez 是支持 DAG 作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。从本质上讲，Tez 组成非常简单，只有两个组成部分：数据处理管道引擎，其中一个引擎可以输入，处理和输出实现以执行任意数据处理数据处理应用程序的主机，通过它可以将上述任意数据处理“任务”组合到任务 DAG 中，以根据需要处理数据。总的来说MR任务在map和reduce阶段都会产生I/O落盘，但是Tez就不要这一步骤了。 Tez采用了DAG（有向无环图）来组织MR任务。核心

2022-08-29

2.9K0

0888-7.1.6-如何在集群外安装多集群Gateway支持

spark hadoop 专用宿主机 hive 大数据

1.文档编写目的在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群（如：HDFS、HBASE、HIVE、SPARK、YARN）等命令操作。但是有特殊需求： 1.不想将这个节点加入到CDH/CDP集群中管理，只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群，且环境变量互不影响本篇文章主要介绍满足以上条件的一个客户端节点安装。测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo

2022-08-26

8370

你问我答3 - 关于Hive CLI与Beeline

hive sql 大数据 node.js 腾讯云测试服务

请教一下，这个是cdp测试过程中，我这边想把hive命令默认client改为原来的hive cli，修改了use_beeline_for_hive_cli为false后,命令输入hive报了java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning,我尝试过将tez的jar包复制到hive 的lib目录下和修改hive-site.xml中的hive.server2.active.passive.ha.enable为fals

2022-08-26

1.2K0

你问我答2 - 关于CDH上的一些安全

hive kerberos sql 大数据 node.js

就是假设 Hadoop 使用了 Kerberos 验证，且 Yarn 使用 LinuxContainerExecutor，那么当 NM 以提交 Job 的用户身份启动 Container 时，当前 Container 进程需要进行 Kerberos 验证么？如果需要的话，它是 NM 的 keytab 进行验证呢，还是 Job 提交者 keytab 需要安装到所有 NM host 节点上？ ---- 你这个是个原理问题吧？如果cm启用kerberos，你提交作业其实不用管这些的呢。 ---- 嗯，是想把底

2022-08-26

3590

0885-7.1.6-如何对CDP中的Hive元数据表进行调优

hive 数据分析 html 数据库 sql

作者：唐辉 1.文档编写目的在日常使用中，我们可以发现在hive元数据库中的TBL_COL_PRIVS，TBL_PRIVS 、PART_COL_STATS表相当大，部分特殊情况下NOTIFICATION_LOG也可能存在问题，如果集群中有关联的操作时会导致元数据库响应慢，从而影响整个Hive的性能，本文的主要目的通过对Hive 的元数据库部分表进行优化，来保障整个Hive 元数据库性能的稳定性。测试环境 1.CDP7.1.6 、启用Kerberos 2.元数据版本 MariaDB-5.5.60 2.问题

2022-08-26

2K0

0884-7.1.6-如何在CDP中集成Hive on HBase

hbase TDSQL MySQL 版 hive 编程算法 xml

1.文档编写目的本篇文章主要介绍如何在Hive中集成HBase，将HBase表映射成Hive表，实现在beeline中查询或者修改HBase的表数据。测试环境 1.集群是Cloudera Enterprise 7.3.1和Cloudera Runtime 7.1.6 2.系统均为RedHat 7.6 3.集群已启用 Kerberos 4.OpenLADP 2.4.44-23.el7_9 2.配置HBase与Hive集成 1.登录CM，下载HBase的配置文件，解压后打开hbase-site.xml 2

2022-08-26

3680

Apache Impala 4.0技术揭秘与最新进展

hadoop hive html sql apache

展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*

2022-05-05

5790

0878-1.6.2-如何在CDP7.1.7中安装SSB

postgresql flink 大数据 kafka hive

1.文档编写目的 SQL Stream Builder(SSB)是Cloudera提供的基于Flink-SQL的实时流计算Web开发平台，它提供了一个交互式的Flink SQL编辑器，让用户可以方便的使用SQL访问一个source比如Kafka中的数据写入到一个sink比如Hive中，具体可以参考Fayson的上一篇文章《0877-1.6.2-SQL Stream Builder(SSB)概述》。本文主要介绍如何在CDP中安装SSB，SSB与Apache Flink同属于Cloudera Streaming

2022-04-18

1.5K0

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

hive spark shell 缓存 apache

1.文档编写目的 Iceberg是一种开放的数据湖表格式，您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API，在不同的Spark版本中支持的程度也不

2022-04-08

1.5K0

0873-7.1.7-如何在CDP集群中安装Spark3

jdk spark parcel apache hive

1.文档编写目的在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上，Spark3服务与现有的Spark2服务共存，两个服务的配置不冲突，可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时，也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍

2022-04-08

2.2K1

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态