Hadoop实操

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular，以促进 Lakehouse 中的数据互操作性。

0927-Databricks X Tabular

开源的文件和表格式因其互操作性潜力而引起了数据行业的极大兴趣，它使许多技术能够安全地在单个数据副本上操作。更高的互操作性不仅可以降低使用多种工具和处理引擎带来的复杂性和成本，还可以防止被供应商锁定。

0926-Apache Iceberg的开源Catalog - Polaris Catalog

所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行，每个守护进程都在集群中主机自己的 JVM 上运行。一般来说，生产集群的HDFS会配置NameNode HA，即有两个NameNode角色，每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活，本文主要介绍相关知识，另外NameNode的heap使用主要来源HDFS中目录，文件和block数量，为了HDFS的稳定和最佳性能，一般建议HDFS中的文件数不要超过3亿。

0925-规划NameNode的heap

调优Hive on Tez查询没有一个通用的方法，查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在做性能测试的时候，我们一般是通过调整配置参数或改写SQL来进行性能调优，建议在做测试的时候每次只进行一项更改，这样方便确认是哪个参数生效。

0924-Hive on Tez性能调优

1.要访问不在 /s3v 卷下的已有bucket，我们可以在/s3v卷中创建symlink

0923-7.1.9-使用S3 Gateway访问Ozone

0922-7.1.9-使用Spark和Hive访问Ozone

4.使用ozone fs -cp命令复制文件的速度非常慢，因为只有一个客户端会在系统之间下载和上传文件。为了提升性能，需要让集群通过多个服务器并行地将文件直接从源移动到目标。

0921-7.1.9-bucket布局和从HDFS拷贝数据到Ozone

Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问，当 Ozone 与 HDFS 依赖项一起安装时，Ozone支持HDFS客户端命令，如hdfs dfs，如果ozone不是defaultfs，需要指定URI路径。

0920-7.1.9-Apache Ozone命令行简介

身份认证是 Ozone 组件识别用户身份的过程，Apache Ozone支持使用Kerberos和security tokens的强身份认证。

0919-Apache Ozone安全架构

Ozone 是 Hadoop 的分布式对象存储系统，具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象，还支持在容器化环境（比如 Kubernetes）中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口，极大地方便了 Ozone 在不同应用场景下的使用。

0918-Apache Ozone简介

CDP中的YARN Queue Manager是一个单独的服务，用来管理Capacity Scheduler配置，同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库，安装比较简单，但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中，用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库，给用户带来了困惑和不方便，尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题，让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制，本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。

0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager

2.停止Hive服务，在配置中搜索“database”，修改数据库配置到MySQL库

0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL

Kafka原生没有提供SAP HANA的Connector，GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector，可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息，参考GitHub：https://github.com/SAP/kafka-connect-sap/tree/master

0915-7.1.7-Kafka Connectors for SAP HANA测试

Doris支持多源数据目录（Multi-Catalog）功能，旨在能够更方便对接外部数据目录，以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上，新增一层Catalog，构成 Catalog -> Database -> Table 的三层元数据层级。其中，Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括：Apache Hive， Apache Iceberg 以及标准的JDBC接口(如MySQL)等

0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog

在当前CDP的大部分的场景中，PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息，而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的，而这些优化功能又需要基于这些统计信息来做优化，所以在一个已经稳定运行的生产环境中，对应的这两张表可能有非常庞大的数据量（上千万甚至于上亿）。

0913-7.7.1-Replication Manager使用优化

本文档主要描述在日常业务业务查询过程中，元数据以及统计信息一切正常的情况下，发现同一SQL，在impala中查询kudu表，有时跑3~5秒，有时跑13多秒的情况分析过程和解决方式。

0912-7.1.7-Impala同一查询耗时差距过大问题分析

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

对于复杂的快照生命周期管理，Iceberg支持分支(branch)和标签(tag)，这些分支和标签是对具有自己独立生命周期的快照的命名引用，此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage)，指向谱系的头部。

0910-Apache Hive 4.x与Iceberg分支和标签

八月再见，九月你好，今天是九月八日，新学年开始，Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能，同时它和CDP Base 7.1.7一样，也是一个长期支持版本（long-term release, LTS），EOS的时间为2027年九月。

0908-CDP Private Cloud Base 7.1.9正式GA

CDP7.1.8及更高版本中Hue使用Python3环境，因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包，确保Hue通过驱动包可以正常的访问数据库，如下操作步骤主要基于CentOS7版本：

0901-安装Python3.8

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Hadoop实操专栏，为你提供了Hadoop实操的相关文章，致力于帮助开发者快速成长与发展。

Hadoop实操

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐