首页
学习
活动
专区
圈层
工具
发布
49 篇文章
1
YARN
2
Hadoop前世今生
3
AI分类
4
人工智能综述
5
随机森林
6
【HBase】HBase之what
7
【HBase】HBase之how
8
HBase篇--HBase常用优化
9
Hbase优化
10
flink源码从头分析第一篇之WordCount DataStream操作
11
大数据Flink-Java学习之旅第一篇
12
flink(12)-flink on yarn
13
Flink学习——Flink概述
14
Flink学习笔记:2、Flink介绍
15
Flink学习笔记(2) -- Flink部署
16
Flink入门(一)——Apache Flink介绍
17
Flink1.4 Flink程序剖析
18
Flink SQL 优化实战 - 维表 JOIN 优化
19
flink sql 知其所以然(十四):维表 join 的性能优化之路(上)附源码
20
Flink重点难点:维表关联理论和Join实战
21
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
22
详解flink中Look up维表的使用
23
Flink 1.11中对接Hive新特性及如何构建数仓体系
24
Flink 实时计算 - SQL 维表 Join 的实现
25
大数据技术周报第 010 期
26
实时数仓在有赞的实践
27
美团基于 Flink 的实时数仓平台建设新进展
28
基于Flink+Hive构建流批一体准实时数仓
29
实时数仓:基于流计算 Oceanus 实现 MySQL 和 HBase 维表到 ClickHouse 的实时分析
30
当 TiDB 与 Flink 相结合:高效、易用的实时数仓
31
flink维表关联系列之Mysql维表关联:全量加载
32
基于Flink的高可靠实时ETL系统
33
基于 Flink 实现的商品实时推荐系统(附源码)
34
【Flink】基于 Flink 的流式数据实时去重
35
Flink 实战 | 贝壳找房基于Flink的实时平台建设
36
Apache Hudi在华米科技的应用-湖仓一体化改造
38
Flink checkpoint
39
理解Flink checkpoint
40
flink checkpoint配置整理
41
flink checkpoint 源码分析 (二)
42
聊聊flink的checkpoint配置
43
Flink中案例学习--State与CheckPoint
44
Flink源码阅读(一)--Checkpoint触发机制
45
Flink企业级优化全面总结(3万字长文,15张图)
46
Flink高频面试题,附答案解析
47
学习Flink,看这篇就够了
48
【最全的大数据面试系列】Flink面试题大全
49
Flink SQL Client综合实战

YARN

简介

YARN(Yet Another Resource Negotiator),下一代MapReduce框架。该框架已经不再是一个传统的MapReduce框架,是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。

MapReduce v1的不足

  • JobTracker职责太多(资源分配模型
    1. JobTracker具有两种不同的职责:
      1. 资源管理。这涉及到维护活动节点列表、可用和已用的map和 reduce slot列表,以及依据所选的调度策略将可用slots分配给合适的作业和任务。
      2. 任务调度和任务监控。这涉及到指导TaskTracker启动map和reduce任务,监视任务的执行,重新启动失败的任务,推测性地运行缓慢的任务,等等。
    2. JobTracker是集群事务的集中处理点,存在单点故障;
    3. JobTracker需要完成的任务太多,既要维护job的状态又要维护task的状态;
  • TaskTracker上的资源强制划分为map slot、reduce slot(资源表示模型
    1. 用map slot、reduce slot作为资源的表示过于简单,没有考虑到CPU、内存等资源情况,当把两个需要消耗大内存的task调度到一起,很容易出现OOM;
    2. 当只有map task时,reduce slot不能用;当只有reduce task时,map slot不能用,容易造成资源利用不足;

YARN的改进

  • Clien

(1) 提交任何支持YARN的Application

  • ResourceManager

(1) 持续跟踪活着的NodeManager和可用资源

(2) 给Application和Task分配合适的资源

(3) 监视所有的Application Master

  • NodeManager

(1) 以Container的形式提供计算资源

(2) 管理运行在Container中的进程

  • Application Master

(1) 协调此Application所拥有的所有Task的运行

(2) 请求合适的Container运行Task

  • Container

(1) 可以运行不同类型的任务(包括Application Master)

(2) 有不同的大小属性,例如,内存、CPU

综上,Yarn将之前JobTracker监控和协调Tasks的运行状况的责任扔给了ApplicationMaster,而ResourceManager中有一个ApplicationsMasters组件,这个组件来监测所有ApplicationMaster的运行状况。

重构根本的思想是将JobTracker两个主要的功能,资源管理、任务调度和任务监控,分离成单独的组件。就是将JobTracker的功能分成ResourceManager、ApplicationsMasters、ApplicationMaster,而将ApplicationMaster剥离JobTracker。TaskTracker分成NodeManager和Container,并将运行任务的Container剥离TaskTracker。

下一篇
举报
领券