腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
960
文章
2313459
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章
hive
其他
github
专用宿主机
hadoop
大数据
kerberos
sql
https
数据库
spark
apache
git
hbase
node.js
云数据库 SQL Server
java
yarn
api
开源
kafka
python
parcel
http
编程算法
TDSQL MySQL 版
网络安全
jdbc
访问管理
存储
xml
腾讯云测试服务
shell
linux
jdk
bash
lucene/solr
bash 指令
ssh
mapreduce
dns
网站
负载均衡
html
打包
jar
windows
负载均衡缓存
zookeeper
postgresql
文件存储
tcp/ip
安全
oracle
容器
flink
机器学习
json
windows server
nginx
容器镜像服务
人工智能
数据分析
DNS 解析 DNSPod
javascript
深度学习
云推荐引擎
kubernetes
数据迁移
SSL 证书
企业
缓存
erp
anaconda
数据处理
tensorflow
scala
maven
神经网络
分布式
jvm
面向对象编程
unity
rpc
ntp
单片机
嵌入式
access
ide
unix
数据备份
yum
微信
数据
c++
jquery
全文检索
批量计算
云数据库 MySQL
ftp
物联网
sas
nat
腾讯云开发者社区
云数据库 postgresql
云计算
Elasticsearch Service
impala
session
配置
同步
云服务器
官方文档
ios
c 语言
php
go
actionscript
css
android
nosql
mvc
flask
eclipse
搜索引擎
ubuntu
centos
apt-get
spring
归档存储
云数据库 MongoDB
数据库一体机 TData
消息队列 CMQ 版
数据加密服务
流量服务
mongodb
vr 视频解决方案
express
devops
自动化
运维
html5
决策树
npm
grep
jenkins
spring cloud
socket编程
数据可视化
微服务
nest
任务调度
密钥管理服务
jupyter notebook
分类算法
ascii
ipv6
迁移
负载测试
智能客服机器人
数据湖
add
client
cloud
com
daemon
datasource
exit
grafana
host
io
kill
ldap
monitoring
openldap
private
project
replication
status
visualization
window
worker
部署
服务
集群
脚本
内存
生命周期
优化
主机
标签
搜索文章
搜索
搜索
关闭
0913-7.7.1-Replication Manager使用优化
配置
数据
同步
优化
replication
在当前CDP的大部分的场景中,PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息,而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的,而这些优化功能又需要基于这些统计信息来做优化,所以在一个已经稳定运行的生产环境中,对应的这两张表可能有非常庞大的数据量(上千万甚至于上亿)。
Fayson
2024-03-05
58
0
0912-7.1.7-Impala同一查询耗时差距过大问题分析
impala
服务
内存
配置
主机
本文档主要描述在日常业务业务查询过程中,元数据以及统计信息一切正常的情况下,发现同一SQL,在impala中查询kudu表,有时跑3~5秒,有时跑13多秒的情况分析过程和解决方式。
Fayson
2023-12-11
173
0
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
sql
hive
flink
client
集群
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
299
0
0910-Apache Hive 4.x与Iceberg分支和标签
apache
hive
生命周期
数据
标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
300
0
0908-CDP Private Cloud Base 7.1.9正式GA
安全
cloud
private
部署
数据
八月再见,九月你好,今天是九月八日,新学年开始,Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能,同时它和CDP Base 7.1.7一样,也是一个长期支持版本(long-term release, LTS),EOS的时间为2027年九月。
Fayson
2023-09-20
346
0
0901-安装Python3.8
数据库
anaconda
sql
云数据库 SQL Server
parcel
CDP7.1.8及更高版本中Hue使用Python3环境,因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包,确保Hue通过驱动包可以正常的访问数据库,如下操作步骤主要基于CentOS7版本:
Fayson
2022-12-14
760
0
0900-7.1.7-如何设置Hive任务的超时时间
hive
在Hive 日常跑批的情况下,如出现数据倾斜严重,或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源,从而导致其他任务因资源不够的情况而延迟。对于这种情况,用户可能期望该作业失败,来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数,合理的配置参数可以减少上述问题的发生。
Fayson
2022-12-14
3.9K
0
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
hive
python
spark
jar
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
808
0
0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP
kafka
kerberos
SSL 证书
https
腾讯云测试服务
3.进入CM>Kafka>配置> Inter Broker Protocol,选择SASL_PLAINTEXT
Fayson
2022-12-14
812
0
0897-7.1.7-CDP中如何通过Ranger为UDF授权
jar
java
云推荐引擎
hive
大数据
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.1K
0
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
hive
专用宿主机
sql
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.8K
0
0896-Cloudera Parcels介绍
parcel
Parcel是一种二进制分发格式,包含程序文件以及Cloudera Manager使用的其它元数据。安装包和Parcel之间的重要区别是: Parcel会被独立的安装在一个显示版本的文件夹中,这意味着你可以并行安装多个版本的Parcel。然后你在使用的时候将其中一个安装版本指定为活动版本。如果使用安装包的话,一次只能安装一个包,所以安装的包和活动的包没有区别。 滚动升级需要Parcels。 你可以在文件系统中的任何位置安装Parcel,它们默认安装在/opt/cloudera/parcels中。相反,软件包
Fayson
2022-09-19
2K
0
0895-Cloudera Manager的工作原理
大数据
hadoop
1.Cloudera Manager词汇 下图说明了Cloudera Manager的基本名词和关系: 一个Deployment代表了全部,包括Cluster。Cluster是一些运行相同版本CDH的Host的集合,不同的Host又会划给不同的Rack。Service是特定系统的实例,跨越了许多Role,每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式,这也是常见的情况。 Configuration被附加到多个上下文,并且可以酌情级联。例如存储DataNode日志文件的路径通常
Fayson
2022-09-15
1.1K
0
0894-如何在Kerberos环境下用Ranger给HDFS授权
大数据
kerberos
1.文档编写目的 Apache Ranger通过用户界面管理访问控制,以确保跨Cloudera Data Platform(CDP)组件进行一致的策略管理。使用Ranger,可以为特定资源(HDFS,HBase,Hive等)创建服务,并将访问策略添加到这些服务中。并且可以基于资源和标签来定制策略,以此来管理访问控制。本文档将介绍在Kerberos环境下使用Ranger为HDFS授权。 2.使用Ranger给HDFS授权 2.1.准备测试用户 1.在集群所有节点创建用户user1(如果部署了OpenLDAP则
Fayson
2022-09-14
1.3K
0
0893-7.1.6-如何为CDP集群配置LDAP高可用并集成测试
hive
访问管理
腾讯云测试服务
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置LDAP的高可用。 文档概述 1.如何在CDP7集群配置LDAP高可用 2.验证LDAP的高可用 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.查看主备节点的DN信息 1.主节点DN信息 [root@cdh1 ~]# ldapsearch -b "dc=macro,dc=com" -D "cn=Manager,dc=macro,dc=com" -W |grep dn 2.备节点D
Fayson
2022-09-14
1.1K
0
0892-7.1.7-如何将CDP从7.1.7升级到7.1.8
专用宿主机
parcel
python
jdk
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
Fayson
2022-09-08
1.1K
0
0891-CDP Private Cloud Base 7.1.8正式GA
hive
大数据
kafka
hbase
api
八月再见,九月你好,今天是九月一日,新学年开始,Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能,比如通过EC提升Ozone的存储效率,Cloudera Manager的HA,多NameNode支持,全面支持Impala4.0,Hive性能提升,HDFS/Schema Registry血缘功能的增强,改进Ranger RMS,以及实时平台的全面增强。 1.平台支持增强 1.新的操作系统支持 CDP Private Cloud Ba
Fayson
2022-09-02
890
1
0890-7.1.6-如何在CDP集群配置Kerberos高可用
kerberos
大数据
node.js
访问管理
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置Kerberos的高可用。 文档概述 1.如何在CDP7集群配置Kerberos高可用 2.验证 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.备节点安装Kerberos服务 1.在备节点安装Kerberos服务,暂时不进行相关配置 [root@cdh1 ~]# yum install -y krb5-server openldap-clients krb5-workstation
Fayson
2022-08-31
924
0
0889-7.1.7-Hive on Tez解析以及日志分析
hive
sql
yarn
node.js
mapreduce
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
2.8K
0
0888-7.1.6-如何在集群外安装多集群Gateway支持
spark
hadoop
专用宿主机
hive
大数据
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
797
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档