Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2437963

阅读量

707

订阅数

0925-规划NameNode的heap

内存存储 heap 对象集群

所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行，每个守护进程都在集群中主机自己的 JVM 上运行。一般来说，生产集群的HDFS会配置NameNode HA，即有两个NameNode角色，每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活，本文主要介绍相关知识，另外NameNode的heap使用主要来源HDFS中目录，文件和block数量，为了HDFS的稳定和最佳性能，一般建议HDFS中的文件数不要超过3亿。

2024-05-27

1790

0923-7.1.9-使用S3 Gateway访问Ozone

dfs gateway string 配置存储

1.要访问不在 /s3v 卷下的已有bucket，我们可以在/s3v卷中创建symlink

2024-05-09

1680

0920-7.1.9-Apache Ozone命令行简介

接口命令行文件系统 apache 存储

Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问，当 Ozone 与 HDFS 依赖项一起安装时，Ozone支持HDFS客户端命令，如hdfs dfs，如果ozone不是defaultfs，需要指定URI路径。

2024-04-30

1830

0918-Apache Ozone简介

存储管理客户端数据 apache

Ozone 是 Hadoop 的分布式对象存储系统，具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象，还支持在容器化环境（比如 Kubernetes）中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口，极大地方便了 Ozone 在不同应用场景下的使用。

2024-04-30

4860

0836-Apache Druid on HDP

apache hive 存储数据库 sql

Apache Druid是一个分布式的、面向列的、实时分析数据库，旨在快速获取大量数据并将其编入索引，并对大型数据集进行快速的切片和切分分析（“OLAP查询），常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此，Druid可以为可视化的分析应用程序提供强力的数据源支持，或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。

2021-04-30

1.3K0

Flink 1.10 新特性研究

api 大数据 java sql 存储

Flink 1.10 release 文档描述了一些比较重要的点，比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别，如果你准备将 Flink 升级到 1.10 版本，建议仔细看完下面的内容。

2020-02-26

1.6K0

重磅 | Hadoop的第二个十年

hadoop 存储安全

https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713

2020-02-18

6020

Delta Lake - 数据湖的数据可靠性

spark 大数据 apache 存储 api

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初创建者，目前领导 Databricks 团队，设计和构建 Structured Streaming 和 Databricks Delta，技术涉及分布式系统、大规模结构化存储和查询优化等方面。

2019-11-21

1.9K1

0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续

hive 大数据存储专用宿主机 SSL 证书

本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

2019-08-12

8470

0678-6.2.0-如何在CDH中使用HDFS分层存储

大数据存储专用宿主机

在前面的文章中，Fayson介绍过什么是HDFS分层存储，参考《6.2.0-什么是HDFS分层存储》。这个功能很早CDH就支持了，本文基于CDH6.2实际演示如何在CDH中使用HDFS分层存储。

2019-07-30

1.4K0

0675-6.2.0-什么是HDFS分层存储

大数据存储归档存储 hbase TDSQL MySQL 版

CDH支持Hadoop分布式文件系统HDFS中的各种存储类型。早期的CDH只支持一种存储类型。现在，您可以为DataNode数据目录指定不同的存储类型，这样可以根据数据使用频率优化数据使用并降低成本。例如需要频繁使用的数据，可以存储在SSD中，而归档的数据可以存放在相对便宜的存储介质中。

2019-07-30

1.2K0

0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志

java 存储 api github git

一些用户为了方便管理和审计，需要将CDSW上所有用户启动Session时运行代码输出的信息获取到。那接下来Fayson主要介绍如何通过获取用户每个Session代码运行输出的详细LiveLog日志。

2019-07-17

8020

从这个角度，我终于理解为什么需要Kafka这样的东西了!

数据库 sql kafka 消息队列 CMQ 版存储

我们都知道，数据库中的数据，只要应用程序员不主动删除，就可以任意次读写，多少次都行。数据库还对外提供了很漂亮的接口——SQL ——让程序员操作数据。

2019-07-13

1.6K0

你为什么还在用存储过程？

存储数据库打包 sql

存储过程（Stored Procedure）是在大型数据库系统中，一组为了完成特定功能的SQL 语句集，它存储在数据库中，一次编译后永久有效，用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它。存储过程是数据库中的一个重要对象。

2019-07-09

8980

0661-6.2.0-Hadoop数据备份与恢复

在Hadoop集群中，数据文件是以Block的方式存储在HDFS上，而HDFS上数据的名称，副本存储的地址等都是通过NameNode上的元数据来保存的。Hive的数据库和表的数据也是保存在HDFS中，而Hive的元数据metastore则保存在关系型数据库中。这些文件和数据如果丢失或者损坏，都会导致相应的服务不可用，Hadoop集群可以启用某些组件和服务的高可用或者备份，来应对可能出现数据损坏问题。但是在集群需要迁移，集群需要扩容或者缩容，或者其他情况，集群可能会面对数据安全风险的时候，我们可以通过主动备份这些数据，来保证数据安全。本文主要讲述如何备份NameNode元数据，如何备份MariaDB元数据库，如何备份HDFS中的数据，以及如何从这些备份中恢复。

2019-07-05

4.5K0

0622-什么是Apache NiFi

大数据编程算法 apache 存储数据处理

2006年NiFi由美国国家安全局（NSA）的Joe Witt创建。2015年7月20日，Apache 基金会宣布Apache NiFi顺利孵化成为Apache的顶级项目之一。NiFi初始的项目名称是Niagarafiles，当NiFi项目开源之后，一些早先在NSA的开发者们创立了初创公司Onyara，Onyara随之继续NiFi项目的开发并提供相关的支持。Hortonworks公司收购了Onyara并将其开发者整合到自己的团队中，形成HDF（Hortonworks Data Flow）平台。2018年Cloudera与Hortonworks合并后，新的CDH整合HDF，改名为Cloudera Data Flow(CDF)，并且在最新的CDH6.2中直接打包，参考《0603-Cloudera Flow Management和Cloudera Edge Management正式发布》，而Apache NiFi就是CFM的核心组件。

2019-05-15

2.3K0

HBase 读流程解析与优化的最佳实践

hbase TDSQL MySQL 版存储 http 数据库

本文首先对 HBase 做简单的介绍，包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析，并根据此流程介绍如何在客户端以及服务端优化性能，同时结合有赞线上 HBase 集群的实际应用情况，将理论和实践结合，希望能给读者带来启发。如文章有纰漏请在下面留言，我们共同探讨共同学习。

2019-04-29

1.3K0

0585-Cloudera Enterprise 6.2.0发布

hive hadoop hbase TDSQL MySQL 版存储

Cloudera在北京时间2019年3月30日正式发布了Cloudera Enterprise 6.2.0，此版本包括了许多新功能，可用性改进以及性能提升。Cloudera Enterprise 6.2.0同时也包括很多组件版本的更新，如下：

2019-04-28

1.1K0

Druid 在有赞的实践

数据分析大数据 sql 存储

Druid 是 MetaMarket 公司研发，专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统，目前 Druid 已经在 Apache 基金会下孵化。Druid 的主要特性：

2019-03-07

1.9K0

CM上HDFS容量显示与实际命令不一致问题分析

git http hadoop 存储

使用hadoop fs -du –h /命令查看HDFS的使用情况，HDFS的使用为41.63GB

2018-11-16

3.7K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态