腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
举报
974
文章
2438425
阅读量
707
订阅数
订阅专栏
申请加入专栏
全部文章(974)
hive(209)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(96)
apache(70)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
开源(47)
api(46)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
存储(29)
网络安全(28)
jdbc(26)
访问管理(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
安全(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
数据(11)
容器(10)
oracle(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
配置(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
string(2)
对象(2)
服务(2)
集群(2)
接口(2)
客户端(2)
内存(2)
同步(2)
文件系统(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
databricks(1)
datasource(1)
dfs(1)
eof(1)
exit(1)
gateway(1)
grafana(1)
h2(1)
hana(1)
hdfs(1)
heap(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
tabular(1)
visualization(1)
window(1)
worker(1)
布局(1)
部署(1)
测试(1)
队列(1)
管理(1)
架构(1)
脚本(1)
开发(1)
连接(1)
命令行(1)
生命周期(1)
协议(1)
性能(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0845-7.1.6-集群外配置Kerberos环境的Gateway节点
hadoop
专用宿主机
kerberos
linux
flink
在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作,这时又不想将该节点添加到CDH/CDP集群中管理,本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。
Fayson
2021-07-05
948
0
0816-CDP Hive3升级说明
spark
专用宿主机
大数据
linux
hive
CDH5中的Hive版本是1.1,而CDP7中的Hive版本为3。Hive3相对Hive1更新特别多,比如支持全新的ACID v2机制,并且底层使用Tez和内存进行查询,相比MR的方式性能提升超过10倍,支持物化视图以及语法使用扩充等等。因为是一次大版本的更新,对于老的CDH5用户升级到CDP7,会需要对于Hive3有足够的了解与准备,才能保证升级成功。本文主要介绍Hive3的新特性,架构,以及语法改造说明。
Fayson
2020-11-03
3.1K
1
0809-7.1.3-Ranger页面功能介绍
apache
hive
linux
access
hbase
《0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-09-04
1.8K
0
0784-CDP安全管理工具介绍
apache
网站
linux
访问管理
数据库
本文档描述如何使用多种安全管理工具来保护CDP环境。重点介绍安全管理工具与CDP环境之间的集成点,但不会探讨这些工具的核心功能。
Fayson
2020-06-19
1.8K
0
0766-6.3.3-如何实现Kafka跨网络访问
kafka
linux
编程算法
tcp/ip
hadoop
在使用Kafka时会遇到内外网的场景,即Kafka集群使用内网搭建,在内网和外网均有客户端需要消费Kafka的消息,同时在集群内由于使用内网环境通信,因此不必太过考虑通信的加密,所以在内网使用非安全的协议也能够通信,但对于外网环境出于安全考虑,只允许通过安全的协议访问Kafka集群,本文档介绍如何基于双网卡来配置Kafka。
Fayson
2020-05-16
3.4K
0
0508-如何使用Hadoop的Archive处理小文件
hadoop
hive
linux
大数据
vr 视频解决方案
Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等,在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力,导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。
Fayson
2019-11-28
2.5K
0
0513-开源软件如何统治世界
开源
linux
云数据库 SQL Server
云计算
就在5年前,投资者对于开源软件这种商业模式依旧持怀疑态度。他们都认为Redhat就像一片雪花(意指看上去很美腻,但随时可能化为虚无),当时也没有其他开源公司在软件领域获得较为出彩的成绩。
Fayson
2019-11-28
593
0
0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup
linux
kerberos
大数据
访问管理
github
对于HDFS服务,hdfs默认是超级管理员用户,它的权限最大,可以说它就相当于Linux的root。hdfs用户默认对所有目录有所有权限,同时可以执行HDFS相关的管理员命令比如让HDFS进入安全模式。但我们有时会碰到需要配置另一个超级用户的情况,本文Fayson主要介绍如何将普通用户设置为HDFS的超级用户。
Fayson
2019-11-28
2.7K
0
0521-Hadoop命令无法访问HDFS路径诡异问题解决
大数据
linux
hadoop
bash
bash 指令
Fayson今天在集群中浏览HDFS数据目录时发现,通过Cloudera Manager的“文件浏览”功能可以正常的浏览某一个HDFS数据目录,如下显示:
Fayson
2019-11-27
1.5K
0
Impala查询卡顿分析案例
linux
腾讯云测试服务
打包
https
作者简介:黄权隆,Cloudera研发工程师,Apache Impala PMC & Comitter,毕业于北大计算机系网络所数据库实验室,曾就职于Hulu大数据基础架构团队,负责大数据系统的维护和二次开发,主要负责Impala和HBase方向。现就职于Cloudera,专注于Impala开发。
Fayson
2019-11-06
3.1K
0
0609-6.1.0-如何卸载CDH6.1
linux
shell
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Fayson
2019-05-07
2.5K
0
0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业
python
spark
anaconda
linux
当前有很多工具辅助大数据分析,但最受环境的就是Python。Python简单易用,语言有着直观的语法并且提供强大的科学计算和集群学习库。借着最近人工智能,深度学习的兴起,Python成为时下最火的语言,已经超越了Java和C,并且纳入了国家计算机等级考试。本篇文章主要讲述如何在CDH集群基于Anaconda安装包部署Python3.6.1的运行环境,并使用PySpark作业验证Python3环境的可行性。
Fayson
2019-04-29
3.1K
0
浅析 Spark Shuffle 内存使用
linux
spark
编程算法
文件存储
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM 的原因。
Fayson
2019-04-29
1.2K
0
0573-5.16.1-如何将CDSW从1.4.2升级到1.5
parcel
编程算法
https
linux
网络安全
Cloudera于2019年1月29日发布CDSW1.5,Fayson在前面的文章《0544-CDSW1.5的新功能》中对于1.5的新功能也做了介绍。对于已经安装并在使用的CDSW用户,很多都是1.4版本的,发布新版本,一般第一时间关心是如何升级,本文将主要描述如何升级CDSW。
Fayson
2019-04-28
718
0
0579-5.15.1-Java 应用程序中修改Kerberos ticket_lifetime参数无效异常分析
java
kerberos
linux
在Kerberos环境中,我们的应用程序通过Java代码来提交任务需要先进行Kerberos凭证的初始化然后进行应用程序的提交,本文档主要讲述Java应用程序中读取krb5.conf 中配置ticket_lifetime 参数不生效的异常分析。
Fayson
2019-04-28
1.7K
0
聊聊个人对安装部署CDH集群前置准备的理解
linux
数据库
云数据库 SQL Server
jdbc
oracle
这一步可以参考我之前写的文章《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》、《如何为Hadoop集群服务器绑定双万兆网卡》
Fayson
2018-09-29
1.4K
0
如何在DELL R730服务器上使用U盘安装linux操作系统
linux
人工智能
1.简介 ---- 在日常工作中,首先就是要检查操作系统,很多时候需要自己动手安装操作系统。说明:本文档针对的是使用U盘做启动盘在戴尔R730服务器上安装Centos7.4,因为服务器型号和系统版本的不同,一些步骤可能存在差异。 2.安装准备 2.1.安装前准备 ---- 1.下载U盘启动制作工具UltraISO,官方下载地址https://cn.ultraiso.net/xiazai.html 2.准备Centos 7.4 的iso 文件 3.准备一个容量不低于8G的U盘,最好是空的 2.2.制作U盘启动
Fayson
2018-07-12
10.5K
0
如何将HDFS文件系统挂载到Linux本地文件系统
大数据
linux
github
git
开源
Hadoop支持通过NFSv3挂载HDFS文件系统到本地目录,允许用户像访问本地文件系统一样访问HDFS,对于普通用户来说大大的简化了HDFS的使用。该功能通过引入NFS Gateway服务实现,将NFS协议转换为HDFS访问协议。本篇文章主要讲述如何将HDFS文件系统挂载到Linux本地。
Fayson
2018-03-29
8.9K
0
如何利用Dnsmasq构建小型集群的本地DNS服务器
dns
DNS 解析 DNSPod
linux
hadoop
apt-get
上次我们介绍了如何在Windows Server中构建DNS服务器:如何在Windows Server2008搭建DNS服务并配置泛域名解析。
Fayson
2018-03-29
4.8K
0
如何在CDH集群安装Anaconda&搭建Python私有源
anaconda
python
linux
windows
Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。
Fayson
2018-03-29
4.1K
1
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档