腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
964
文章
2339486
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章
hive
其他
github
专用宿主机
hadoop
大数据
kerberos
sql
https
数据库
spark
apache
git
hbase
node.js
云数据库 SQL Server
java
yarn
api
开源
kafka
python
parcel
http
编程算法
TDSQL MySQL 版
网络安全
jdbc
访问管理
存储
xml
腾讯云测试服务
shell
linux
jdk
bash
lucene/solr
bash 指令
ssh
mapreduce
dns
网站
负载均衡
html
打包
jar
windows
postgresql
负载均衡缓存
zookeeper
文件存储
tcp/ip
安全
oracle
容器
flink
机器学习
json
windows server
nginx
容器镜像服务
人工智能
数据分析
DNS 解析 DNSPod
javascript
深度学习
云推荐引擎
kubernetes
数据迁移
数据
SSL 证书
企业
缓存
erp
anaconda
数据处理
tensorflow
scala
maven
神经网络
分布式
jvm
面向对象编程
unity
rpc
ntp
单片机
嵌入式
access
ide
unix
数据备份
yum
微信
c++
jquery
全文检索
批量计算
云数据库 MySQL
ftp
物联网
sas
nat
腾讯云开发者社区
云数据库 postgresql
云计算
Elasticsearch Service
impala
session
服务
配置
同步
云服务器
官方文档
ios
c 语言
php
go
actionscript
css
android
nosql
mvc
flask
eclipse
搜索引擎
ubuntu
centos
apt-get
spring
归档存储
云数据库 MongoDB
数据库一体机 TData
消息队列 CMQ 版
数据加密服务
流量服务
mongodb
vr 视频解决方案
express
devops
自动化
运维
html5
决策树
npm
grep
jenkins
spring cloud
socket编程
数据可视化
微服务
nest
任务调度
密钥管理服务
jupyter notebook
分类算法
ascii
ipv6
迁移
负载测试
智能客服机器人
数据湖
add
client
cloud
com
daemon
datasource
exit
grafana
h2
hana
host
io
kill
ldap
monitoring
mysql
openldap
private
project
queue
replication
sap
status
visualization
window
worker
部署
测试
集群
脚本
连接
内存
生命周期
异常
优化
主机
标签
搜索文章
搜索
搜索
关闭
0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL
postgresql
hive
mysql
数据
数据库
2.停止Hive服务,在配置中搜索“database”,修改数据库配置到MySQL库
Fayson
2024-04-11
76
0
0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog
数据库
hive
连接
数据
异常
Doris支持多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上,新增一层Catalog,构成 Catalog -> Database -> Table 的三层元数据层级。其中,Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括:Apache Hive, Apache Iceberg 以及标准的JDBC接口(如MySQL)等
Fayson
2024-04-10
108
0
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
sql
hive
flink
client
集群
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
331
0
0910-Apache Hive 4.x与Iceberg分支和标签
apache
hive
生命周期
数据
标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
360
0
0900-7.1.7-如何设置Hive任务的超时时间
hive
在Hive 日常跑批的情况下,如出现数据倾斜严重,或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源,从而导致其他任务因资源不够的情况而延迟。对于这种情况,用户可能期望该作业失败,来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数,合理的配置参数可以减少上述问题的发生。
Fayson
2022-12-14
4.1K
0
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
hive
python
spark
jar
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
841
0
0897-7.1.7-CDP中如何通过Ranger为UDF授权
jar
java
云推荐引擎
hive
大数据
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.2K
0
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
hive
专用宿主机
sql
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.9K
0
0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试
hive
访问管理
腾讯云测试服务
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。 文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D
Fayson
2022-09-14
1.1K
0
0891-CDP Private Cloud Base 7.1.8正式GA
hive
大数据
kafka
hbase
api
八月再见,九月你好,今天是九月一日,新学年开始,Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能,比如通过EC提升Ozone的存储效率,Cloudera Manager的HA,多NameNode支持,全面支持Impala4.0,Hive性能提升,HDFS/Schema Registry血缘功能的增强,改进Ranger RMS,以及实时平台的全面增强。 1.平台支持增强 1.新的操作系统支持 CDP Private Cloud Ba
Fayson
2022-09-02
917
1
0889-7.1.7-Hive on Tez解析以及日志分析
hive
sql
yarn
node.js
mapreduce
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
2.9K
0
0888-7.1.6-如何在集群外安装多集群Gateway支持
spark
hadoop
专用宿主机
hive
大数据
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
837
0
你问我答3 - 关于Hive CLI与Beeline
hive
sql
大数据
node.js
腾讯云测试服务
请教一下,这个是cdp测试过程中,我这边想把hive命令默认client改为原来的hive cli,修改了use_beeline_for_hive_cli为false后,命令输入hive报了java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning,我尝试过将tez的jar包复制到hive 的lib目录下和修改hive-site.xml中的hive.server2.active.passive.ha.enable为fals
Fayson
2022-08-26
1.2K
0
你问我答2 - 关于CDH上的一些安全
hive
kerberos
sql
大数据
node.js
就是假设 Hadoop 使用了 Kerberos 验证,且 Yarn 使用 LinuxContainerExecutor,那么当 NM 以提交 Job 的用户身份启动 Container 时,当前 Container 进程需要进行 Kerberos 验证 么? 如果需要的话,它是 NM 的 keytab 进行验证呢,还是 Job 提交者 keytab 需要安装到所有 NM host 节点上? ---- 你这个是个原理问题吧?如果cm启用kerberos,你提交作业其实不用管这些的呢。 ---- 嗯,是想把底
Fayson
2022-08-26
359
0
0885-7.1.6-如何对CDP中的Hive元数据表进行调优
hive
数据分析
html
数据库
sql
作者:唐辉 1.文档编写目的 在日常使用中,我们可以发现在hive元数据库中的TBL_COL_PRIVS,TBL_PRIVS 、PART_COL_STATS表相当大,部分特殊情况下NOTIFICATION_LOG也可能存在问题,如果集群中有关联的操作时会导致元数据库响应慢,从而影响整个Hive的性能,本文的主要目的通过对Hive 的元数据库部分表进行优化,来保障整个Hive 元数据库性能的稳定性。 测试环境 1.CDP7.1.6 、启用Kerberos 2.元数据版本 MariaDB-5.5.60 2.问题
Fayson
2022-08-26
2K
0
0884-7.1.6-如何在CDP中集成Hive on HBase
hbase
TDSQL MySQL 版
hive
编程算法
xml
1.文档编写目的 本篇文章主要介绍如何在Hive中集成HBase,将HBase表映射成Hive表,实现在beeline中查询或者修改HBase的表数据。 测试环境 1.集群是Cloudera Enterprise 7.3.1和Cloudera Runtime 7.1.6 2.系统均为RedHat 7.6 3.集群已启用 Kerberos 4.OpenLADP 2.4.44-23.el7_9 2.配置HBase与Hive集成 1.登录CM,下载HBase的配置文件,解压后打开hbase-site.xml 2
Fayson
2022-08-26
368
0
Apache Impala 4.0技术揭秘与最新进展
hadoop
hive
html
sql
apache
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
579
0
0878-1.6.2-如何在CDP7.1.7中安装SSB
postgresql
flink
大数据
kafka
hive
1.文档编写目的 SQL Stream Builder(SSB)是Cloudera提供的基于Flink-SQL的实时流计算Web开发平台,它提供了一个交互式的Flink SQL编辑器,让用户可以方便的使用SQL访问一个source比如Kafka中的数据写入到一个sink比如Hive中,具体可以参考Fayson的上一篇文章《0877-1.6.2-SQL Stream Builder(SSB)概述》。本文主要介绍如何在CDP中安装SSB,SSB与Apache Flink同属于Cloudera Streaming
Fayson
2022-04-18
1.5K
0
0874-7.1.7-如何在CDP集群为Spark3集成Iceberg
hive
spark
shell
缓存
apache
1.文档编写目的 Iceberg是一种开放的数据湖表格式,您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用,Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API,在不同的Spark版本中支持的程度也不
Fayson
2022-04-08
1.5K
0
0873-7.1.7-如何在CDP集群中安装Spark3
jdk
spark
parcel
apache
hive
1.文档编写目的 在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上,Spark3服务与现有的Spark2服务共存,两个服务的配置不冲突,可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时,也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍
Fayson
2022-04-08
2.2K
1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档