首页
学习
活动
专区
圈层
工具
发布

#hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

【详解】Hadoop自定义分组比较器实现分组功能

大盘鸡拌面

在Hadoop MapReduce编程中,默认情况下,框架会根据键(Key)的自然排序来进行分组。然而,在某些应用场景下,我们可能需要根据特定的业务逻辑来对数据...

4410

hadoop纠删码基本原理

用户4128047

        Hadoop纠删码(Erasure Coding, EC)是通过数学编码降低存储冗余的核心技术,其原理与实现可归纳如下:

7110

doris避坑之端口冲突

用户4128047

doris 默认端口 和 Yarn 默认端口存在冲突, 导致同时启动时,端口冲突无法启动。

9210

hadoop异构存储

用户4128047

·Hadoop异构存储是一种基于HDFS的存储优化技术,通过将不同热度的数据分配到不同类型的存储介质上实现性能与成本的平衡。以下是其核心原理和实现方式:

11010

Hadoop常用端口号和配置文件

用户4128047

        hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml   sl...

10510

Hadoop集群故障节点隔离操作指南

用户4128047

        输出中标记为 Dead 或 Decommissioning 的节点为异常节点。

15110

hadoop组成

用户4128047

        在hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大;

7010

Hive常用交互命令

用户4128047

3.查看在 hive 中输入的所有历史命令 (1)进入到当前用户的根目录/root 或/home/hadoop (2)查看. hivehistory 文件

6610

小文件存档

用户4128047

1、HDFS存储小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小 文件会非常低效。因为大量的小文件会耗尽Nam...

8910

hadoop基准测试

用户4128047

搭建完Hadoop集群后,需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。

7110

hadoop回收站

用户4128047

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原书记,起到防止误删除、备份等作用。 一.开启回收站功能参数说明 1、默认值fs.trash.inte...

8210

hadoop常见端口号

用户4128047

访问HDFS端口 50070 9870 访问MR执行情况端口 8088 ...

11810

Hadoop副本节点选择

用户4128047

我的集群使用的是hadoop2.7.2版本,副本节点选择机制如下: (1)第一个副本在client所处的节点上,如果客户端在集群外,随机选一个。 (2)第二...

9310

hadoop集群的快照管理

用户4128047

通过 web 访问 hdfs://hadoop102:50070/user/hadoop/input/.snapshot/s……// 快照和源文 件使用相同数...

9100

退役旧数据节点-黑名单退役

用户4128047

在黑名单上面的主机都会被强制退出。 1.在 NameNode 的 /opt/module/hadoop-2.7.2/etc/hadoop 目 录下创建dfs....

10600

退役旧数据节点-白名单退役

用户4128047

1.添加白名单 添加到白名单的主机节点,都允许访问 NameNode,不在白名单的主机节点,都会被退出。 配置白名单的具体步骤如下: (1)在 NameN...

11710

服役新数据节点

用户4128047

0.需求 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。 1.环境准备 (...

14010

NameNode 多目录配置

用户4128047

(4)查看结果 [hadoop@hadoop102 dfs]$ ll 总用量 12

11910

NameNode故障处理

用户4128047

NameNode 故障后,可以采用如下两种方法恢复数据。 方法一:将 SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录;

13500

hadoop数据倾斜优化方法

用户4128047

1、提前在map进行combine,减少传输的数据量 在mapper加上combiner相当于提前进行reduce,即把一个mapper中的相同key进行了聚...

8310
领券