Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2439035

阅读量

707

订阅数

0927-Databricks X Tabular

databricks tabular 开发数据开源

Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular，以促进 Lakehouse 中的数据互操作性。

2024-06-07

1770

0926-Apache Iceberg的开源Catalog - Polaris Catalog

协议 apache 开源安全数据

开源的文件和表格式因其互操作性潜力而引起了数据行业的极大兴趣，它使许多技术能够安全地在单个数据副本上操作。更高的互操作性不仅可以降低使用多种工具和处理引擎带来的复杂性和成本，还可以防止被供应商锁定。

2024-06-06

3790

0925-规划NameNode的heap

内存存储 heap 对象集群

所有 Hadoop 进程都在 Java 虚拟机 (JVM) 上运行，每个守护进程都在集群中主机自己的 JVM 上运行。一般来说，生产集群的HDFS会配置NameNode HA，即有两个NameNode角色，每个NameNode都使用自己的JVM。NameNode JVM的heap预估是个技术活，本文主要介绍相关知识，另外NameNode的heap使用主要来源HDFS中目录，文件和block数量，为了HDFS的稳定和最佳性能，一般建议HDFS中的文件数不要超过3亿。

2024-05-27

1830

0924-Hive on Tez性能调优

hive 队列配置性能容器

调优Hive on Tez查询没有一个通用的方法，查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在做性能测试的时候，我们一般是通过调整配置参数或改写SQL来进行性能调优，建议在做测试的时候每次只进行一项更改，这样方便确认是哪个参数生效。

2024-05-18

5150

0923-7.1.9-使用S3 Gateway访问Ozone

dfs gateway string 配置存储

1.要访问不在 /s3v 卷下的已有bucket，我们可以在/s3v卷中创建symlink

2024-05-09

1700

0922-7.1.9-使用Spark和Hive访问Ozone

spark hive eof string 数据

2024-05-09

1460

0921-7.1.9-bucket布局和从HDFS拷贝数据到Ozone

接口数据文件系统 hdfs 布局

4.使用ozone fs -cp命令复制文件的速度非常慢，因为只有一个客户端会在系统之间下载和上传文件。为了提升性能，需要让集群通过多个服务器并行地将文件直接从源移动到目标。

2024-04-30

1530

0920-7.1.9-Apache Ozone命令行简介

接口命令行文件系统 apache 存储

Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问，当 Ozone 与 HDFS 依赖项一起安装时，Ozone支持HDFS客户端命令，如hdfs dfs，如果ozone不是defaultfs，需要指定URI路径。

2024-04-30

1840

0919-Apache Ozone安全架构

apache 安全对象架构客户端

身份认证是 Ozone 组件识别用户身份的过程，Apache Ozone支持使用Kerberos和security tokens的强身份认证。

2024-04-30

1681

0918-Apache Ozone简介

存储管理客户端数据 apache

Ozone 是 Hadoop 的分布式对象存储系统，具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象，还支持在容器化环境（比如 Kubernetes）中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口，极大地方便了 Ozone 在不同应用场景下的使用。

2024-04-30

4950

0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager

数据库 yarn h2 queue 服务

CDP中的YARN Queue Manager是一个单独的服务，用来管理Capacity Scheduler配置，同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库，安装比较简单，但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中，用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库，给用户带来了困惑和不方便，尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题，让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制，本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。

2024-04-12

1750

0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL

postgresql hive mysql 数据数据库

2.停止Hive服务，在配置中搜索“database”，修改数据库配置到MySQL库

2024-04-11

1630

0915-7.1.7-Kafka Connectors for SAP HANA测试

数据 kafka hana sap 测试

Kafka原生没有提供SAP HANA的Connector，GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector，可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息，参考GitHub：https://github.com/SAP/kafka-connect-sap/tree/master

2024-04-10

2690

0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog

数据库 hive 连接数据异常

Doris支持多源数据目录（Multi-Catalog）功能，旨在能够更方便对接外部数据目录，以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上，新增一层Catalog，构成 Catalog -> Database -> Table 的三层元数据层级。其中，Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括：Apache Hive， Apache Iceberg 以及标准的JDBC接口(如MySQL)等

2024-04-10

7840

0913-7.7.1-Replication Manager使用优化

配置数据同步优化 replication

在当前CDP的大部分的场景中，PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息，而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的，而这些优化功能又需要基于这些统计信息来做优化，所以在一个已经稳定运行的生产环境中，对应的这两张表可能有非常庞大的数据量（上千万甚至于上亿）。

2024-03-05

1290

0912-7.1.7-Impala同一查询耗时差距过大问题分析

impala 服务内存配置主机

本文档主要描述在日常业务业务查询过程中，元数据以及统计信息一切正常的情况下，发现同一SQL，在impala中查询kudu表，有时跑3~5秒，有时跑13多秒的情况分析过程和解决方式。

2023-12-11

2690

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

sql hive flink client 集群

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

2023-12-04

4900

0910-Apache Hive 4.x与Iceberg分支和标签

apache hive 生命周期数据标签

对于复杂的快照生命周期管理，Iceberg支持分支(branch)和标签(tag)，这些分支和标签是对具有自己独立生命周期的快照的命名引用，此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage)，指向谱系的头部。

2023-11-16

5750

0908-CDP Private Cloud Base 7.1.9正式GA

安全 cloud private 部署数据

八月再见，九月你好，今天是九月八日，新学年开始，Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能，同时它和CDP Base 7.1.7一样，也是一个长期支持版本（long-term release, LTS），EOS的时间为2027年九月。

2023-09-20

5680

0901-安装Python3.8

数据库 anaconda sql 云数据库 SQL Server parcel

CDP7.1.8及更高版本中Hue使用Python3环境，因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包，确保Hue通过驱动包可以正常的访问数据库，如下操作步骤主要基于CentOS7版本：

2022-12-14

8670

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态