首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

实战|Kafka集群升级项目实施,打造高效数据处理平台

TASKCTL 任务调度平台

成都塔斯克信息技术有限公司 | 运营经理 (已认证)

我们团队负责维护的Kafka集群承载了公司大部分实时数据的收集与传输任务。然而,目前存在一些问题,严重影响了集群的稳定性、用户体验以及管理员的运维效率:

801

router启动详解

zeekling

华为 | 大数据开发工程师 (已认证)

为了解决HDFS的水平扩展性问题,社区从Apache Hadoop 0.23.0版本开始引入了HDFS federation。HDFS Federation是指...

910

hadoop 主备倒换控制器:ZKFailoverController详解

zeekling

华为 | 大数据开发工程师 (已认证)

HDFS的NameNode、Yarn的ResourceManager都是依靠ZK实现主备倒换的。核心的类为:ZKFailoverController.java,

9710

【赵渝强老师】基于ZooKeeper实现Hadoop HA

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、b...

12110

建立单机版的hive

顾翔

安装后的hadoop默认为单机配置,无需其他配置即可运行。使用hadoop自带的单词统计的例子体验以下:

15110

【Java】已解决:org.apache.hadoop.hdfs.protocol.QuotaExceededException

屿小夏

已解决:org.apache.hadoop.hdfs.protocol.QuotaExceededException

8310

​【赵渝强老师】大数据主从架构的单点故障

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。

8600

【赵渝强老师】大数据生态圈中的组件

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习...

12610

【赵渝强老师】大数据技术的理论基础

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此...

15710

Hadoop 认证模块详解

zeekling

华为 | 大数据开发工程师 (已认证)

客户端的入口函数为 KerberosAuthenticator.authenticate函数

15320

【赵渝强老师】基于RBF的HDFS联邦架构

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

在最新的Hadoop版本中又实现了基于Router的联盟架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router将挂载表从客户端中抽离了出来,解...

17410

【赵渝强老师】Hive的体系架构

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

在Hadoop体系中提供数据分析引擎Hive。它允许使用SQL语句来分析处理数据,而不需要编程复杂的Java程序。同时Hive提供了丰富的数据模型来创建各种表结...

13710

【赵渝强老师】HDFS数据上传和下载的过程

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

在Hadoop的HDFS中客户端的操作请求,无论是上传数据或者下载数据都是由NameNode负责接收和处理。最终将数据按照数据块的形式保存到数据节点DataNo...

18810

【赵渝强老师】部署Hadoop本地模式

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

为了方便操作Hadoop,需要设置HADOOP_HOME的环境变量,并把bin和sbin目录加入系统的PATH路径中。下面列举了具体的步骤。

11410

【赵渝强老师】Hadoop生态圈组件

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的G...

11210

【赵渝强老师】Yarn的资源调度策略

赵渝强老师

京东大学 | 大数据学院院长 (已认证)

Yarn作为一个资源和任务调度的平台,在实际应用中往往不止一个应用程序运行在Yarn之上,例如:在Yarn上同时运着MapReduce任务、Spark任务和Fl...

8210

ContainerManager详解

zeekling

华为 | 大数据开发工程师 (已认证)

ContainerManager主要负责NM中管理所有Container生命周期,其主要包含启动Container、恢复Container、停止Containe...

16520

电商数仓6.0组件之虚拟机搭建Hadoop3.X

弟大翻着洗

Hadoop 是一个开源的框架,主要用于处理海量数据。它能在分布式环境中存储和处理数据,具有高容错性、可扩展性和高性能等优点。Hadoop 可以处理结构化、半结...

7720

【七】Hadoop3.3.4基于ubuntu24的分布式集群安装

火之高兴

访问apche官网源,下载3.3.4版本,我们用二进制通用版即可,因为hadoop运行在java环境,跨平台性使得无需编译arm架构版本。Hadoop 3.3....

12110

【九】Hadoop3.3.4HA高可用配置

火之高兴

当前高可用在以下三台节点组成的hadoop3.3.4集群中进行配置,当前已经完成了集群安装,hdfs的验证,并且zookeeper组件已经安装完成。

10910

相关产品

  • Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

领券