首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
968
文章
2353093
阅读量
704
订阅数
0921-7.1.9-bucket布局和从HDFS拷贝数据到Ozone
4.使用ozone fs -cp命令复制文件的速度非常慢,因为只有一个客户端会在系统之间下载和上传文件。为了提升性能,需要让集群通过多个服务器并行地将文件直接从源移动到目标。
Fayson
2024-04-30
970
0920-7.1.9-Apache Ozone命令行简介
Ozone 客户端可以将 Ozone 作为文件系统和key-value存储进行访问,当 Ozone 与 HDFS 依赖项一起安装时,Ozone支持HDFS客户端命令,如hdfs dfs,如果ozone不是defaultfs,需要指定URI路径。
Fayson
2024-04-30
740
0919-Apache Ozone安全架构
身份认证是 Ozone 组件识别用户身份的过程,Apache Ozone支持使用Kerberos和security tokens的强身份认证。
Fayson
2024-04-30
660
0918-Apache Ozone简介
Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口,极大地方便了 Ozone 在不同应用场景下的使用。
Fayson
2024-04-30
900
0917-7.1.9-如何在CDP中使用H2安装YARN Queue Manager
CDP中的YARN Queue Manager是一个单独的服务,用来管理Capacity Scheduler配置,同时包含一个UI界面方便Hadoop管理员在全局或者队列级别创建、配置和管理YARN队列。在CDP Base 7.1.8之前YARN Queue Manager一直使用内置的H2内存数据库,安装比较简单,但是在CDP Base 7.1.9和7.1.9 CHF1这两个版本中,用户必须将YARN Queue Manager配置到一个外部的PostgreSQL数据库,给用户带来了困惑和不方便,尤其对于想要从CDP Base 7.1.7升级上来的用户。Cloudera在7.1.9 CHF2紧急修复了该问题,让YARN Queue Manager的安装与以前一致。但在实际安装过程中还有一些限制,本文主要介绍如何在CDP Base 7.1.9 CHF2+版本中继续使用H2内置数据库。
Fayson
2024-04-12
680
0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL
2.停止Hive服务,在配置中搜索“database”,修改数据库配置到MySQL库
Fayson
2024-04-11
850
0915-7.1.7-Kafka Connectors for SAP HANA测试
Kafka原生没有提供SAP HANA的Connector,GitHub开源项目Kafka Connectors for SAP提供了kafka与SAP之间的Connector,可实现定时全量或增量的拉取SAP HANA数据发送到Kafka。详细信息,参考GitHub:https://github.com/SAP/kafka-connect-sap/tree/master
Fayson
2024-04-10
1310
0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog
Doris支持多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上,新增一层Catalog,构成 Catalog -> Database -> Table 的三层元数据层级。其中,Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括:Apache Hive, Apache Iceberg 以及标准的JDBC接口(如MySQL)等
Fayson
2024-04-10
1510
0913-7.7.1-Replication Manager使用优化
在当前CDP的大部分的场景中,PART_COL_STATS和TAB_COL_STATS这两张Hive元数据表都会比较大。因为这两张表是分别存放分区表和非分区表的一些字段上的统计信息,而在CDP中Hive的CBO、Mapjoin和谓词下推等优化查询功能默认是开启的,而这些优化功能又需要基于这些统计信息来做优化,所以在一个已经稳定运行的生产环境中,对应的这两张表可能有非常庞大的数据量(上千万甚至于上亿)。
Fayson
2024-03-05
830
0912-7.1.7-Impala同一查询耗时差距过大问题分析
本文档主要描述在日常业务业务查询过程中,元数据以及统计信息一切正常的情况下,发现同一SQL,在impala中查询kudu表,有时跑3~5秒,有时跑13多秒的情况分析过程和解决方式。
Fayson
2023-12-11
2030
0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成
在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client的能力,可以通过一种简单的方式来编写、调试和提交程序到Flink集群,而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成,主要有如下两个目的:
Fayson
2023-12-04
3420
0910-Apache Hive 4.x与Iceberg分支和标签
对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。
Fayson
2023-11-16
3890
0908-CDP Private Cloud Base 7.1.9正式GA
八月再见,九月你好,今天是九月八日,新学年开始,Cloudera正式发布CDP Base 7.1.9和Cloudera Manager 7.11.3。此版本首次在CDP PvC Base上引入强大的Open Data Lakehouse分析功能,同时它和CDP Base 7.1.7一样,也是一个长期支持版本(long-term release, LTS),EOS的时间为2027年九月。
Fayson
2023-09-20
4100
0901-安装Python3.8
CDP7.1.8及更高版本中Hue使用Python3环境,因此必须在集群的所有节点安装Python3.8。同时还必须为PostgreSQL、MySQL或MariaDB数据库安装相应的驱动包,确保Hue通过驱动包可以正常的访问数据库,如下操作步骤主要基于CentOS7版本:
Fayson
2022-12-14
7970
0900-7.1.7-如何设置Hive任务的超时时间
在Hive 日常跑批的情况下,如出现数据倾斜严重,或者运行未经优化的SQL时可能导致Hive 任务运行时长超过预期并且长时间占用资源池队列的大量资源,从而导致其他任务因资源不够的情况而延迟。对于这种情况,用户可能期望该作业失败,来保证后续作业的运行。本文主要讲述如何设置Hive 任务的超时时间以及与其关联的参数,合理的配置参数可以减少上述问题的发生。
Fayson
2022-12-14
4.2K0
0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter
Zeppelin默认的管理权限是admins组,所以用户要加admins组才可以添加和修改interpreter
Fayson
2022-12-14
8550
0898-7.1.7-如何在CDP中为Kafka集成OpenLDAP
3.进入CM>Kafka>配置> Inter Broker Protocol,选择SASL_PLAINTEXT
Fayson
2022-12-14
8430
0897-7.1.7-CDP中如何通过Ranger为UDF授权
1.文档编写目的 本片文档主要讲述了在Ranger中对Hive的UDF函数进行授权的方式。分别测试了对HDFS上和本地的UDF的授权。 测试环境 CDP7.1.7,集群启用了Kerberos 使用一个普通用户liuyq测试,该用户有udf_test库的权限 2.HDFS上的UDF JAR授权 2.1.准备工作 1.将UDF的 jar包上传至HDFS的/user/hive/udf目录下,用于测试HDFS上的UDF授权 hdfs dfs -mkdir /user/hive/udfhdfs dfs -put
Fayson
2022-10-10
1.2K0
0886-7.1.7-Hive1与Hive3中Decimal数据计算结果精度缺失问题分析
将集群从CDH升级到CDP后,Hive1与Hive3在Decimal精度的处理上发生了变化,导致两个版本的Hive在进行Decimal类型的数据计算时存在差异,主要体现在计算结果精度缺失。本篇文章主要从Hive1和Hive3对Decimal类型的处理上进行分析,进而详细解释精度缺失的原因。
Fayson
2022-09-27
1.9K0
0896-Cloudera Parcels介绍
Parcel是一种二进制分发格式,包含程序文件以及Cloudera Manager使用的其它元数据。安装包和Parcel之间的重要区别是: Parcel会被独立的安装在一个显示版本的文件夹中,这意味着你可以并行安装多个版本的Parcel。然后你在使用的时候将其中一个安装版本指定为活动版本。如果使用安装包的话,一次只能安装一个包,所以安装的包和活动的包没有区别。 滚动升级需要Parcels。 你可以在文件系统中的任何位置安装Parcel,它们默认安装在/opt/cloudera/parcels中。相反,软件包
Fayson
2022-09-19
2.1K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档