专栏首页九州牧云Hadoop技术资料汇总(不断更新中)

Hadoop技术资料汇总(不断更新中)

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢迎大家留言交流。感谢这些资料的作者。

一、HDFS

1、集群安装:

Hadoop 2.6.0 HA高可用集群配置详解

2、NameNode:

HDFS NameNode内存全景

3、DataNode:

Hadoop--HDFS之DataNode

4、权限管理:

HDFS权限管理实践

5、数据平衡:

How does the HDFS balancer work internally?

HDFS Commands, HDFS Permissions and HDFS Storage

HORTONWORKS官方文档:Balancing in HDFS

6、集群治理:

应对Hadoop集群数据疯长,这里祭出了4个治理对策!

基于FsImage的HDFS数据深度分析

NameNode Analytics: PayPal’s Big Data Guardian

7、问题汇总:

(1)Hadoop Non DFS Used大小问题:

Hadoop hdfs界面:Hadoop Non DFS Used大小问题

关于hadoop hdfs中Non DFS Used占用很大的问题分析处理

(2)小文件处理:

HDFS自定义小文件分析功能

HDFS文件目录list操作加速优化

(3)Namenode写Journalnode超时,导致Namenode挂掉的问题:

Namenode写Journalnode超时,导致Namenode挂掉的问题

java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond

关于机房交换机故障导致HDFS NameNode挂掉的问题(续)

NameNode HA异常调查

Timed out waiting 20000ms for a quorum of nodes to respond

namenode gc导致的故障一例

Standby NameNode is faling and only one is running

(4)HDFS NameNode 重启优化

(5)Hadoop节点"慢磁盘"监控

8、其他:

(1)Hadoop学习之路(十二)分布式集群中HDFS系统的各种角色

(2)监控相关:

HDFS Ports

hadoop指标项

NameNode Metrics

How to collect Hadoop metrics

二、YARN

1、调度队列:

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Yarn公平调度器Fair Scheduler根据用户组分配资源池

YARN ResourceManager重启作业保留机制

【Free Style】Hadoop-Yarn之Resource Manager源码分析(四)

2、NodeManager:

NodeManager节点自身健康状态检测机制

3、ResourceManger:

ResourceManger Restart

YARN资源本地化深度解析

4、监控:

yarn社区原生界面详解

5、问题汇总:

(1)资源不足、任务资源分配不合理、队列资源分配不合理引起的资源预留问题:

What is Memory reserved on Yarn

Aggregate Resource Allocation for a job in YARN

(2)任务kill:

YARN批处理方式kill Applications解决方案

(3)Flink实时计算集群:ZooKeeper闪断导致的YARN任务状态不一致引起的RM崩溃问题:

NullPointerException in RM HA enabled 3-node cluster

NPE happened when RM restart after CapacityScheduler queue configuration changed

Flink on YARN with HA enabled crashes all RMs on attempt restoration

6、其他:

查看YARN任务日志的几种方式

YARN ApplicationId的生成方式

Yarn: Application Id - How is it generated ?

三、集群维护

关于DataNode更改IP地址后所可能引发HDFS集群状态变化的分析

四、博客&文章

1、lxw的大数据田地

2、过往记忆

3、Android路上的人

4、石杉的架构笔记:

兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理

大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

五、参考书籍

深度剖析Hadoop HDFS,林意群 著

Hadoop技术内幕:深入解析YARN架构设计与实现原理,董西成 著

大数据日知录,张俊林著

六、其他

1、Hadoop源码编译:

(1)环境准备:

brew install autoconf automake libtool

(2)编译:

Hadoop工程根目录下的BUILDING.txt中Maven build goals部分列出了编译Hadoop源码要用的maven命令,以下是参考文章:

编译命令:

mvn clean package -Pdist,native -DskipTests -Dtar

(3)问题解决:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用Apache Kudu和Impala实现存储分层

    当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kud...

    九州暮云
  • Java 性能要点:自动装箱/ 拆箱 (Autoboxing / Unboxing)

    如果我告诉你:“只要修改一个字符,下面这段代码的运行速度就能提高5倍。”,你觉得可能么?

    九州暮云
  • Uninstall all those broken versions of MySQL and re-install it with Brew on Mac Mavericks

    To remove an instance of MySQL from your macOS or OSX installation you need to d...

    九州暮云
  • 分布式计算Hadoop简介

    Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量...

    猿人谷
  • Hadoop如何通过IT审计(下)?

    大数据文摘
  • Hadoop的概念

    Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算...

    我脱下短袖
  • 它的名字叫Hadoop

    注意,我会使用第三人称以朋友的角度介绍大数据中必须要学会的框架Hadoop,阅读时间需要五分钟。

    我脱下短袖
  • 大数据架构师,指引你从入门到精通 想学习必看......

    目前最火的大数据,很多人想往大数据方向发展,想问该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果你自己感到迷茫,或者是为了以上这些原因...

    用户1667431
  • Hadoop架构——云计算的具体实现

    Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 ...

    猿人谷
  • 【学习】大数据和Hadoop生态圈,Hadoop发行版和企业级应用

    本文转自张子良的博客Hadoop develop,张子良,金融大数据专家,提供大数据方案咨询,技术咨询和企业内训。 第一章 大数据和Hadoop生态圈 本章主要...

    小莹莹

扫码关注云+社区

领取腾讯云代金券