腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
964
文章
2343426
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章
hive
其他
github
专用宿主机
hadoop
大数据
kerberos
sql
https
数据库
spark
apache
git
hbase
node.js
云数据库 SQL Server
java
yarn
api
开源
kafka
python
parcel
http
编程算法
TDSQL MySQL 版
网络安全
jdbc
访问管理
存储
xml
腾讯云测试服务
shell
linux
jdk
bash
lucene/solr
bash 指令
ssh
mapreduce
dns
网站
负载均衡
html
打包
jar
windows
postgresql
负载均衡缓存
zookeeper
文件存储
tcp/ip
安全
oracle
容器
flink
机器学习
json
windows server
nginx
容器镜像服务
人工智能
数据分析
DNS 解析 DNSPod
javascript
深度学习
云推荐引擎
kubernetes
数据迁移
数据
SSL 证书
企业
缓存
erp
anaconda
数据处理
tensorflow
scala
maven
神经网络
分布式
jvm
面向对象编程
unity
rpc
ntp
单片机
嵌入式
access
ide
unix
数据备份
yum
微信
c++
jquery
全文检索
批量计算
云数据库 MySQL
ftp
物联网
sas
nat
腾讯云开发者社区
云数据库 postgresql
云计算
Elasticsearch Service
impala
session
服务
配置
同步
云服务器
官方文档
ios
c 语言
php
go
actionscript
css
android
nosql
mvc
flask
eclipse
搜索引擎
ubuntu
centos
apt-get
spring
归档存储
云数据库 MongoDB
数据库一体机 TData
消息队列 CMQ 版
数据加密服务
流量服务
mongodb
vr 视频解决方案
express
devops
自动化
运维
html5
决策树
npm
grep
jenkins
spring cloud
socket编程
数据可视化
微服务
nest
任务调度
密钥管理服务
jupyter notebook
分类算法
ascii
ipv6
迁移
负载测试
智能客服机器人
数据湖
add
client
cloud
com
daemon
datasource
exit
grafana
h2
hana
host
io
kill
ldap
monitoring
mysql
openldap
private
project
queue
replication
sap
status
visualization
window
worker
部署
测试
集群
脚本
连接
内存
生命周期
异常
优化
主机
标签
搜索文章
搜索
搜索
关闭
0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager
数据库
yarn
h2
queue
服务
CDP中的YARN Queue Manager是一个单独的服务,用来管理Capacity Scheduler配置,同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库,安装比较简单,但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中,用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库,给用户带来了困惑和不方便,尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题,让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制,本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。
Fayson
2024-04-12
63
0
0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL
postgresql
hive
mysql
数据
数据库
2.停止Hive服务,在配置中搜索“database”,修改数据库配置到MySQL库
Fayson
2024-04-11
78
0
0915-7.1.7-Kafka Connectors for SAP HANA测试
数据
kafka
hana
sap
测试
Kafka原生没有提供SAP HANA的Connector,GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector,可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息,参考GitHub:https://github.com/SAP/kafka-connect-sap/tree/master
Fayson
2024-04-10
110
0
0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog
数据库
hive
连接
数据
异常
Doris支持多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上,新增一层Catalog,构成 Catalog -> Database -> Table 的三层元数据层级。其中,Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括:Apache Hive, Apache Iceberg 以及标准的JDBC接口(如MySQL)等
Fayson
2024-04-10
118
0
0913-7.7.1-Replication Manager使用优化
配置
数据
同步
优化
replication
在当前CDP的大部分的场景中,PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息,而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的,而这些优化功能又需要基于这些统计信息来做优化,所以在一个已经稳定运行的生产环境中,对应的这两张表可能有非常庞大的数据量(上千万甚至于上亿)。
Fayson
2024-03-05
76
0
0912-7.1.7-Impala同一查询耗时差距过大问题分析
impala
服务
内存
配置
主机
本文档主要描述在日常业务业务查询过程中,元数据以及统计信息一切正常的情况下,发现同一SQL,在impala中查询kudu表,有时跑3~5秒,有时跑13多秒的情况分析过程和解决方式。
Fayson
2023-12-11
195
0
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
sql
hive
flink
client
集群
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
337
0
0910-Apache Hive 4.x与Iceberg分支和标签
apache
hive
生命周期
数据
标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
366
0
0908-CDP Private Cloud Base 7.1.9正式GA
安全
cloud
private
部署
数据
八月再见,九月你好,今天是九月八日,新学年开始,Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能,同时它和CDP Base 7.1.7一样,也是一个长期支持版本(long-term release, LTS),EOS的时间为2027年九月。
Fayson
2023-09-20
391
0
0901-安装Python3.8
数据库
anaconda
sql
云数据库 SQL Server
parcel
CDP7.1.8及更高版本中Hue使用Python3环境,因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包,确保Hue通过驱动包可以正常的访问数据库,如下操作步骤主要基于CentOS7版本:
Fayson
2022-12-14
791
0
0900-7.1.7-如何设置Hive任务的超时时间
hive
在Hive 日常跑批的情况下,如出现数据倾斜严重,或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源,从而导致其他任务因资源不够的情况而延迟。对于这种情况,用户可能期望该作业失败,来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数,合理的配置参数可以减少上述问题的发生。
Fayson
2022-12-14
4.1K
0
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
hive
python
spark
jar
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
842
0
0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP
kafka
kerberos
SSL 证书
https
腾讯云测试服务
3.进入CM>Kafka>配置> Inter Broker Protocol,选择SASL_PLAINTEXT
Fayson
2022-12-14
835
0
0897-7.1.7-CDP中如何通过Ranger为UDF授权
jar
java
云推荐引擎
hive
大数据
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.2K
0
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
hive
专用宿主机
sql
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.9K
0
0896-Cloudera Parcels介绍
parcel
Parcel是一种二进制分发格式,包含程序文件以及Cloudera Manager使用的其它元数据。安装包和Parcel之间的重要区别是: Parcel会被独立的安装在一个显示版本的文件夹中,这意味着你可以并行安装多个版本的Parcel。然后你在使用的时候将其中一个安装版本指定为活动版本。如果使用安装包的话,一次只能安装一个包,所以安装的包和活动的包没有区别。 滚动升级需要Parcels。 你可以在文件系统中的任何位置安装Parcel,它们默认安装在/opt/cloudera/parcels中。相反,软件包
Fayson
2022-09-19
2K
0
0895-Cloudera Manager的工作原理
大数据
hadoop
1.Cloudera Manager词汇 下图说明了Cloudera Manager的基本名词和关系: 一个Deployment代表了全部,包括Cluster。Cluster是一些运行相同版本CDH的Host的集合,不同的Host又会划给不同的Rack。Service是特定系统的实例,跨越了许多Role,每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式,这也是常见的情况。 Configuration被附加到多个上下文,并且可以酌情级联。例如存储DataNode日志文件的路径通常
Fayson
2022-09-15
1.2K
0
0894-如何在Kerberos环境下用Ranger给HDFS授权
大数据
kerberos
1.文档编写目的 Apache Ranger通过用户界面管理访问控制,以确保跨Cloudera Data Platform(CDP)组件进行一致的策略管理。使用Ranger,可以为特定资源(HDFS,HBase,Hive等)创建服务,并将访问策略添加到这些服务中。并且可以基于资源和标签来定制策略,以此来管理访问控制。本文档将介绍在Kerberos环境下使用Ranger为HDFS授权。 2.使用Ranger给HDFS授权 2.1.准备测试用户 1.在集群所有节点创建用户user1(如果部署了OpenLDAP则
Fayson
2022-09-14
1.4K
0
0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试
hive
访问管理
腾讯云测试服务
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。 文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D
Fayson
2022-09-14
1.1K
0
0892-7.1.7-如何将CDP从7.1.7升级到7.1.8
专用宿主机
parcel
python
jdk
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
Fayson
2022-09-08
1.1K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档