腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
举报
974
文章
2437253
阅读量
707
订阅数
订阅专栏
申请加入专栏
全部文章(974)
hive(209)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(96)
apache(70)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
开源(47)
api(46)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
存储(29)
网络安全(28)
jdbc(26)
访问管理(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
安全(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
数据(11)
容器(10)
oracle(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
配置(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
string(2)
对象(2)
服务(2)
集群(2)
接口(2)
客户端(2)
内存(2)
同步(2)
文件系统(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
databricks(1)
datasource(1)
dfs(1)
eof(1)
exit(1)
gateway(1)
grafana(1)
h2(1)
hana(1)
hdfs(1)
heap(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
tabular(1)
visualization(1)
window(1)
worker(1)
布局(1)
部署(1)
测试(1)
队列(1)
管理(1)
架构(1)
脚本(1)
开发(1)
连接(1)
命令行(1)
生命周期(1)
协议(1)
性能(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0890-7.1.6-如何在CDP集群配置Kerberos高可用
kerberos
大数据
node.js
访问管理
1.文档编写目的 本篇文章主要介绍如何在CDP 7.1.6集群中配置Kerberos的高可用。 文档概述 1.如何在CDP7集群配置Kerberos高可用 2.验证 3.总结 测试环境 1.操作系统Redhat7.2 2.CDP7.1.6 3.使用root用户操作 2.备节点安装Kerberos服务 1.在备节点安装Kerberos服务,暂时不进行相关配置 [root@cdh1 ~]# yum install -y krb5-server openldap-clients krb5-workstation
Fayson
2022-08-31
1.1K
0
0889-7.1.7-Hive on Tez解析以及日志分析
hive
sql
yarn
node.js
mapreduce
1.Tez简介 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单,只有两个组成部分: 数据处理管道引擎,其中一个引擎可以输入,处理和输出实现以执行任意数据处理 数据处理应用程序的主机,通过它可以将上述任意数据处理“任务”组合到任务 DAG 中,以根据需要处理数据。 总的来说MR任务在map和reduce阶段都会产生I/O落盘,但是Tez就不要这一步骤了。 Tez采用了DAG(有向无环图)来组织MR任务。核心
Fayson
2022-08-29
3.7K
0
你问我答3 - 关于Hive CLI与Beeline
hive
sql
大数据
node.js
腾讯云测试服务
请教一下,这个是cdp测试过程中,我这边想把hive命令默认client改为原来的hive cli,修改了use_beeline_for_hive_cli为false后,命令输入hive报了java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning,我尝试过将tez的jar包复制到hive 的lib目录下和修改hive-site.xml中的hive.server2.active.passive.ha.enable为fals
Fayson
2022-08-26
1.3K
0
你问我答2 - 关于CDH上的一些安全
hive
kerberos
sql
大数据
node.js
就是假设 Hadoop 使用了 Kerberos 验证,且 Yarn 使用 LinuxContainerExecutor,那么当 NM 以提交 Job 的用户身份启动 Container 时,当前 Container 进程需要进行 Kerberos 验证 么? 如果需要的话,它是 NM 的 keytab 进行验证呢,还是 Job 提交者 keytab 需要安装到所有 NM host 节点上? ---- 你这个是个原理问题吧?如果cm启用kerberos,你提交作业其实不用管这些的呢。 ---- 嗯,是想把底
Fayson
2022-08-26
396
0
你问我答1 - HDFS数据的写入原理
node.js
hadoop
大数据
编程算法
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
787
0
0882-7.1.6-如何对HDFS进行节点内(磁盘间)数据平衡
大数据
node.js
1.文档编写目的 当HDFS的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况: 1.不同DataNode节点间数据不均衡; 2.挂载数据盘的磁盘间数据不均衡。 特别是这种情况:当DataNode原来是挂载了几个数据盘,当磁盘占用率很高之后,再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下,挂载新的数据盘就失去了扩容HDFS数据盘的意义。 如果想要解决节点内多块磁盘数据不均衡的现象,就要
Fayson
2022-07-19
1.8K
0
0881-7.1.7-如何配置动态队列调度功能
yarn
node.js
作者:唐辉 1.文档编写目的 动态队列调度功能可以通过在预定义时间重新配置属性值来动态更改系统状态。目前还是技术预览版,生产使用需谨慎考虑 动态队列调度功能仅支持队列级资源分配配置。此外,该功能仅在relative 和absolute资源分配模式下受支持。 动态队列配置功能能够设置将预定义配置应用于 YARN 队列管理器系统的时间。 以下场景适合使用动态队列调度功能: 需要为集群安排两个队列状态,即状态 A 和状态 B。状态 A 应在上午 8 点至晚上 8 点使用,状态 B 应在晚上 8 点至上午 8
Fayson
2022-06-14
543
0
2022年5月1日登罗浮山
html
node.js
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
307
0
0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速
spark
yarn
node.js
api
机器学习
本文作者:BYD信息中心-数据中心管理部-董睿 进入正文之前先打一个小广告,手动狗头 比亚迪西安研发中心(与深圳协同办公),base西安,招聘大数据平台运维、架构方向的工程师,实时计算方向工程师,感兴趣的小伙伴请投递简历至dong.rui@byd.com 1.文档编写目的 RAPIDS 全称是Real-time Acceleration Platform for Integrated Data Science,是 NVIDIA 针对数据科学和机器学习推出的 GPU 加速库,RAPIDS的推出其实是为了弥补G
Fayson
2022-04-28
945
0
0872-7.1.4-如何启用CGroup限制YARN CPU使用率
yarn
node.js
mapreduce
spark
1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理分配CPU的使用率,使应用预期性能的运行,排除其他因素的影响下,如应用中每分配一个Vcore,预估它能处理多少数据,就需要启用CGroup对CPU进行严格的使用率限制来实现。 在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed
Fayson
2022-03-24
1.8K
0
0862-CDP Private Cloud Base 7.1.7正式GA
专用宿主机
kafka
yarn
node.js
hive
2021年8月6日 1.升级增强 1.CDH6升级 CDH6客户可以直接从CDH 6.1.x, 6.2.x和6.3.x集群原地升级到CDP Private Cloud Base,而不需要搭建一个新的集群。 2.回滚操作文档 支持从CDH6升级到CDP7.1.7的回滚操作; 支持从HDP3升级到CDP7.1.6的回滚操作; 3.新的升级指南 现在docs.cloudera.com网站上提供了一个新的Upgrade Companion,为所有CDP升级相关活动提供一个集中的文档中心。Upgrade Compan
Fayson
2021-08-23
992
0
0861-7.1.6-如何对Hive表小文件进行合并
大数据
hive
node.js
HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存。HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间。本篇文章主要介绍在CDP7.1.6集群中如何对Hive表小文件进行合并。
Fayson
2021-08-23
1.9K
0
0858-7.1.6-安装YARN Queue Manager服务启动异常分析
yarn
node.js
在CDP7.1.6的添加组件过程中,添加YARN Queue Manager后,启动服务过程中,提示启动Yarn Queue Manager Store角色失败。如下图:
Fayson
2021-07-28
1.1K
0
0857-7.1.6-如何查看DAS中执行的Hive On Tez作业的日志
node.js
yarn
kerberos
windows
http
使用DAS查看日之前,需要先知道DAS如何安装,参考《0853-7.1.6-如何在CDP集群上安装DAS》,本篇文章主要介绍如何查看DAS中执行的Hive On Tez作业的日志。
Fayson
2021-07-28
1.7K
0
0852-7.1.4-如何关闭CDP中ranger策略的审计
node.js
大数据
专用宿主机
CDP集群中的ranger在添加新的策略的时候,默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长,海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需求选择是否关闭审计功能。本文主要是说明如何关闭ranger里面配置的策略的审计功能。
Fayson
2021-07-05
864
0
0850-7.1.4-如何为distcp作业设置application tag
单片机
yarn
node.js
专用宿主机
mapreduce
如果需要管理作业生命周期。期望通过作业的application tag来进行定位。本文档就如何设置distcp作业的application tag来进行说明。
Fayson
2021-07-05
887
0
0846-7.1.1-如何迁移HDP2.4中的Hive表到CDP7.1.1
单片机
hive
hadoop
html
node.js
随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过程中,我们首先面对的就是本地的HDFS数据迁移和Hive 表数据迁移,本文主要讲述如何迁移HDP2.4.2 Hive 表和数据到CDP 7.1.1中。
Fayson
2021-07-05
896
0
0834-CDP Private Cloud Base 7.1.6正式GA
yarn
node.js
https
kafka
网络安全
https://docs.cloudera.com/cdp-private-cloud-base/7.1.6/manager-release-notes/topics/cm-release-notes-731.html
Fayson
2021-04-19
945
0
0832-如何安装及使用Prometheus
https
网络安全
node.js
数据库
大数据
Prometheus 是一个具有维度数据模型,灵活的查询语言,高效的时间序列数据库和现代警报方法的开源监视系统。
Fayson
2021-04-19
2.3K
1
0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析
node.js
yarn
专用宿主机
zookeeper
本文描述了一次因为Zookeeper的异常导致ResourceManager卡住,从而导致集群所有作业无法提交的问题分析和处理。
Fayson
2021-03-11
1.3K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档