腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
964
文章
2344932
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章(964)
hive(207)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(95)
apache(66)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
api(46)
开源(45)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
网络安全(28)
jdbc(26)
访问管理(25)
存储(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
安全(11)
oracle(9)
容器(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
数据(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
服务(2)
配置(2)
同步(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
datasource(1)
exit(1)
grafana(1)
h2(1)
hana(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
visualization(1)
window(1)
worker(1)
部署(1)
测试(1)
集群(1)
脚本(1)
连接(1)
内存(1)
生命周期(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0895-Cloudera Manager的工作原理
大数据
hadoop
1.Cloudera Manager词汇 下图说明了Cloudera Manager的基本名词和关系: 一个Deployment代表了全部,包括Cluster。Cluster是一些运行相同版本CDH的Host的集合,不同的Host又会划给不同的Rack。Service是特定系统的实例,跨越了许多Role,每个Role都会被分配给一个Host。角色配置组是一次配置多个角色的一种方式,这也是常见的情况。 Configuration被附加到多个上下文,并且可以酌情级联。例如存储DataNode日志文件的路径通常
Fayson
2022-09-15
1.2K
0
0888-7.1.6-如何在集群外安装多集群Gateway支持
spark
hadoop
专用宿主机
hive
大数据
1.文档编写目的 在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求: 1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群,且环境变量互不影响 本篇文章主要介绍满足以上条件的一个客户端节点安装。 测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo
Fayson
2022-08-26
846
0
你问我答1 - HDFS数据的写入原理
node.js
hadoop
大数据
编程算法
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
691
0
Apache Impala 4.0技术揭秘与最新进展
hadoop
hive
html
sql
apache
展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\\s*
Fayson
2022-05-05
582
0
0846-7.1.1-如何迁移HDP2.4中的Hive表到CDP7.1.1
单片机
hive
hadoop
html
node.js
随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过程中,我们首先面对的就是本地的HDFS数据迁移和Hive 表数据迁移,本文主要讲述如何迁移HDP2.4.2 Hive 表和数据到CDP 7.1.1中。
Fayson
2021-07-05
855
0
0845-7.1.6-集群外配置Kerberos环境的Gateway节点
hadoop
专用宿主机
kerberos
linux
flink
在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作,这时又不想将该节点添加到CDH/CDP集群中管理,本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。
Fayson
2021-07-05
895
0
0839-1.7.2-如何启用CDSW的reserve master功能
hadoop
com
host
session
worker
Cloudera Data Science Workbench允许保留Master节点,以运行内部应用程序组件和服务(例如Livelog,PostgreSQL数据库等),而用户工作负载仅在Worker节点上运行。
Fayson
2021-04-30
579
0
0793-5.16.2-如何迁移单个Zookeeper实例
迁移
hadoop
zookeeper
hbase
TDSQL MySQL 版
随着集群规模的不断扩大,在对集群进行调整优化时。时常会考虑对集群的角色进行优化调整,这就会涉及到服务角色的迁移。本篇文章主要介绍如何将Zookeeper服务的单个实例从一个节点迁移到其他节点。
Fayson
2020-08-03
1.2K
0
0766-6.3.3-如何实现Kafka跨网络访问
kafka
linux
编程算法
tcp/ip
hadoop
在使用Kafka时会遇到内外网的场景,即Kafka集群使用内网搭建,在内网和外网均有客户端需要消费Kafka的消息,同时在集群内由于使用内网环境通信,因此不必太过考虑通信的加密,所以在内网使用非安全的协议也能够通信,但对于外网环境出于安全考虑,只允许通过安全的协议访问Kafka集群,本文档介绍如何基于双网卡来配置Kafka。
Fayson
2020-05-16
3K
0
0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证
spark
xml
html
hive
hadoop
数据质量平台基于定义好的数据稽核和数据质量规则,生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一获取某Hadoop集群上Hive表的数据:
Fayson
2020-04-26
3K
0
0759-Kafka2.3性能测试
hadoop
了解Kafka的性能指标可以很好的帮助你规划Kafka集群,但使用不同的消息大小,保留时间(retention periods),分区,复制因子,网络速度,甚至是同步还是异步都可能影响到对Kafka集群的硬件配置和大小的规划。几年前,Linkedin做过一个Kafka的基准测试,参考:
Fayson
2020-04-21
1.1K
0
重磅 | Hadoop的第二个十年
hadoop
存储
安全
https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713
Fayson
2020-02-18
572
0
0741-什么是Apache Ranger - 1
hadoop
apache
专用宿主机
hive
api
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
Fayson
2020-02-10
1.6K
0
0484-Cloudera和Hortonworks合并后面临的选择
apache
开源
专用宿主机
hadoop
unity
Cloudera与Hortonworks两家公司在前一段时间提出来合并,虽然两家公司都同时强调两者在产品或者技术上的互补性,但其实合并后的公司也面临一些艰难的选择,可能会对各种与Hadoop相关的开源Apache项目产生较大的影响。本文主要讨论它们接下来可能会如何发展。
Fayson
2019-11-28
1.4K
0
0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
jdk
oracle
专用宿主机
java
hadoop
受前段时间Oracle官宣的从2019年1月之后将不再提供免费的的JDK商业版本的影响,Cloudera开始开发基于OpenJDK的Hadoop平台,参考Fayson之前的文章《Java收费,Hadoop怎么办?》。今年11月29日,Cloudera才发布不久的CDH5.16.1正式提供OpenJDK的支持,参考Fayson之前的文章《0466-CDH5.16.1和CM5.16.1的新功能》和《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》。同时12月19日发布的《0487-CDH6.1的新功能》和《0488-Cloudera Manager6.1的新功能》,也开始支持OpenJDK。本文Fayson主要介绍如何将CDH6.1从Oracle JDK迁移到OpenJDK。
Fayson
2019-11-28
1.1K
0
Cloudera与Hortonworks合并完成
hadoop
开源
Hadoop大数据领域最大的两家公司Cloudera和Hortonworks在1月3日宣布,完成了所有股票的合并。新的公司会继续使用‘Cloudera’这个品牌,并且在纽交所的交易代号依旧是CLDR。
Fayson
2019-11-28
1.1K
0
0508-如何使用Hadoop的Archive处理小文件
hadoop
hive
linux
大数据
vr 视频解决方案
Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等,在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力,导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。
Fayson
2019-11-28
2.4K
0
0509-深入分析CDH的安装目录
专用宿主机
hadoop
xml
如果采用Cloudera官方建议的安装方式,即Cloudera Manager使用rpm的方式安装,CDH使用Parcel方式安装,会在操作系统内产生多种多样的目录。CDH安装主要使用的目录包括/etc,/usr,/var,/tmp,/opt共5个目录,不同的目录下保存不同的子文件夹以及多种多样不同的文件内容主要涉及比如安装包,配置文件,执行命令脚本等。本文Fayson会详细讲解各个目录的作用以及建议规划的大小。
Fayson
2019-11-28
1.8K
0
0517-如何在CDH5中使用单用户模式
bash
bash 指令
专用宿主机
hadoop
运维
我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。我们一般在安装CDH时,都是使用root或具有sudo权限的用户安装的,如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务(cloudera-scm-agent)是以root用户身份运行的。但是在有些企业,运维部门有严格的要求,需要CDH使用自己的用户来管理即不能随便使用root,比如要求cloudera-scm-agent服务以其他用户进行启停和管理。
Fayson
2019-11-28
1.8K
0
0529-5.15.0-这次玩儿大了,找不回了
大数据
api
kafka
github
hadoop
前两天客户问了一个问题,HDFS上删除的数据还能不能恢复?碰到这个问题第一反应“在执行命令的这个用户下垃圾回收站找到恢复不就的了?”,用户删除数据发现操作失误的时间并不长也没有超过垃圾回收站的清空时间,但是无论怎么找也找不到被删除的数据,这次真的玩儿大了。。。
Fayson
2019-11-28
1.2K
1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档