腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
举报
974
文章
2437963
阅读量
707
订阅数
订阅专栏
申请加入专栏
全部文章(974)
hive(209)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(96)
apache(70)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
开源(47)
api(46)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
存储(29)
网络安全(28)
jdbc(26)
访问管理(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
安全(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
数据(11)
容器(10)
oracle(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
配置(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
string(2)
对象(2)
服务(2)
集群(2)
接口(2)
客户端(2)
内存(2)
同步(2)
文件系统(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
databricks(1)
datasource(1)
dfs(1)
eof(1)
exit(1)
gateway(1)
grafana(1)
h2(1)
hana(1)
hdfs(1)
heap(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
tabular(1)
visualization(1)
window(1)
worker(1)
布局(1)
部署(1)
测试(1)
队列(1)
管理(1)
架构(1)
脚本(1)
开发(1)
连接(1)
命令行(1)
生命周期(1)
协议(1)
性能(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0925-规划NameNode的heap
内存
存储
heap
对象
集群
所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行,每个守护进程都在集群中主机自己的 JVM 上运行。一般来说,生产集群的HDFS会配置NameNode HA,即有两个NameNode角色,每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活,本文主要介绍相关知识,另外NameNode的heap使用主要来源HDFS中目录,文件和block数量,为了HDFS的稳定和最佳性能,一般建议HDFS中的文件数不要超过3亿。
Fayson
2024-05-27
179
0
0923-7.1.9-使用S3 Gateway访问Ozone
dfs
gateway
string
配置
存储
1.要访问不在 /s3v 卷下的已有bucket,我们可以在/s3v卷中创建symlink
Fayson
2024-05-09
168
0
0920-7.1.9-Apache Ozone命令行简介
接口
命令行
文件系统
apache
存储
Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问,当 Ozone 与 HDFS 依赖项一起安装时,Ozone支持HDFS客户端命令,如hdfs dfs,如果ozone不是defaultfs,需要指定URI路径。
Fayson
2024-04-30
183
0
0918-Apache Ozone简介
存储
管理
客户端
数据
apache
Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口,极大地方便了 Ozone 在不同应用场景下的使用。
Fayson
2024-04-30
486
0
0836-Apache Druid on HDP
apache
hive
存储
数据库
sql
Apache Druid是一个分布式的、面向列的、实时分析数据库,旨在快速获取大量数据并将其编入索引,并对大型数据集进行快速的切片和切分分析(“OLAP查询),常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此,Druid可以为可视化的分析应用程序提供强力的数据源支持,或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。
Fayson
2021-04-30
1.3K
0
Flink 1.10 新特性研究
api
大数据
java
sql
存储
Flink 1.10 release 文档描述了一些比较重要的点,比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别,如果你准备将 Flink 升级到 1.10 版本,建议仔细看完下面的内容。
Fayson
2020-02-26
1.6K
0
重磅 | Hadoop的第二个十年
hadoop
存储
安全
https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713
Fayson
2020-02-18
602
0
Delta Lake - 数据湖的数据可靠性
spark
大数据
apache
存储
api
今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员,也是 Spark SQL 的最初创建者,目前领导 Databricks 团队,设计和构建 Structured Streaming 和 Databricks Delta,技术涉及分布式系统、大规模结构化存储和查询优化等方面。
Fayson
2019-11-21
1.9K
1
0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续
hive
大数据
存储
专用宿主机
SSL 证书
本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》
Fayson
2019-08-12
847
0
0678-6.2.0-如何在CDH中使用HDFS分层存储
大数据
存储
专用宿主机
在前面的文章中,Fayson介绍过什么是HDFS分层存储,参考《6.2.0-什么是HDFS分层存储》。这个功能很早CDH就支持了,本文基于CDH6.2实际演示如何在CDH中使用HDFS分层存储。
Fayson
2019-07-30
1.4K
0
0675-6.2.0-什么是HDFS分层存储
大数据
存储
归档存储
hbase
TDSQL MySQL 版
CDH支持Hadoop分布式文件系统HDFS中的各种存储类型。早期的CDH只支持一种存储类型。现在,您可以为DataNode数据目录指定不同的存储类型,这样可以根据数据使用频率优化数据使用并降低成本。例如需要频繁使用的数据,可以存储在SSD中,而归档的数据可以存放在相对便宜的存储介质中。
Fayson
2019-07-30
1.2K
0
0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志
java
存储
api
github
git
一些用户为了方便管理和审计,需要将CDSW上所有用户启动Session时运行代码输出的信息获取到。那接下来Fayson主要介绍如何通过获取用户每个Session代码运行输出的详细LiveLog日志。
Fayson
2019-07-17
802
0
从这个角度,我终于理解为什么需要Kafka这样的东西了!
数据库
sql
kafka
消息队列 CMQ 版
存储
我们都知道,数据库中的数据,只要应用程序员不主动删除,就可以任意次读写,多少次都行。数据库还对外提供了很漂亮的接口——SQL ——让程序员操作数据。
Fayson
2019-07-13
1.6K
0
你为什么还在用存储过程?
存储
数据库
打包
sql
存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。存储过程是数据库中的一个重要对象。
Fayson
2019-07-09
898
0
0661-6.2.0-Hadoop数据备份与恢复
存储
在Hadoop集群中,数据文件是以Block的方式存储在HDFS上,而HDFS上数据的名称,副本存储的地址等都是通过NameNode上的元数据来保存的。Hive的数据库和表的数据也是保存在HDFS中,而Hive的元数据metastore则保存在关系型数据库中。这些文件和数据如果丢失或者损坏,都会导致相应的服务不可用,Hadoop集群可以启用某些组件和服务的高可用或者备份,来应对可能出现数据损坏问题。但是在集群需要迁移,集群需要扩容或者缩容,或者其他情况,集群可能会面对数据安全风险的时候,我们可以通过主动备份这些数据,来保证数据安全。本文主要讲述如何备份NameNode元数据,如何备份MariaDB元数据库,如何备份HDFS中的数据,以及如何从这些备份中恢复。
Fayson
2019-07-05
4.5K
0
0622-什么是Apache NiFi
大数据
编程算法
apache
存储
数据处理
2006年NiFi由美国国家安全局(NSA)的Joe Witt创建。2015年7月20日,Apache 基金会宣布Apache NiFi顺利孵化成为Apache的顶级项目之一。NiFi初始的项目名称是Niagarafiles,当NiFi项目开源之后,一些早先在NSA的开发者们创立了初创公司Onyara,Onyara随之继续NiFi项目的开发并提供相关的支持。Hortonworks公司收购了Onyara并将其开发者整合到自己的团队中,形成HDF(Hortonworks Data Flow)平台。2018年Cloudera与Hortonworks合并后,新的CDH整合HDF,改名为Cloudera Data Flow(CDF),并且在最新的CDH6.2中直接打包,参考《0603-Cloudera Flow Management和Cloudera Edge Management正式发布》,而Apache NiFi就是CFM的核心组件。
Fayson
2019-05-15
2.3K
0
HBase 读流程解析与优化的最佳实践
hbase
TDSQL MySQL 版
存储
http
数据库
本文首先对 HBase 做简单的介绍,包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析,并根据此流程介绍如何在客户端以及服务端优化性能,同时结合有赞线上 HBase 集群的实际应用情况,将理论和实践结合,希望能给读者带来启发。如文章有纰漏请在下面留言,我们共同探讨共同学习。
Fayson
2019-04-29
1.3K
0
0585-Cloudera Enterprise 6.2.0发布
hive
hadoop
hbase
TDSQL MySQL 版
存储
Cloudera在北京时间2019年3月30日正式发布了Cloudera Enterprise 6.2.0,此版本包括了许多新功能,可用性改进以及性能提升。Cloudera Enterprise 6.2.0同时也包括很多组件版本的更新,如下:
Fayson
2019-04-28
1.1K
0
Druid 在有赞的实践
数据分析
大数据
sql
存储
Druid 是 MetaMarket 公司研发,专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统,目前 Druid 已经在 Apache 基金会下孵化。Druid 的主要特性:
Fayson
2019-03-07
1.9K
0
CM上HDFS容量显示与实际命令不一致问题分析
git
http
hadoop
存储
使用hadoop fs -du –h /命令查看HDFS的使用情况,HDFS的使用为41.63GB
Fayson
2018-11-16
3.7K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档