文章/答案/技术大牛

发布

大数据

共 49 篇文章

YARN

flink源码从头分析第一篇之WordCount DataStream操作

大数据Flink-Java学习之旅第一篇

flink(12)-flink on yarn

Flink学习——Flink概述

Flink学习笔记：2、Flink介绍

Flink学习笔记(2) -- Flink部署

Flink入门（一）——Apache Flink介绍

Flink1.4 Flink程序剖析

Flink SQL 优化实战 - 维表 JOIN 优化

flink sql 知其所以然（十四）：维表 join 的性能优化之路（上）附源码

Flink重点难点：维表关联理论和Join实战

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

详解flink中Look up维表的使用

Flink 1.11中对接Hive新特性及如何构建数仓体系

Flink 实时计算 - SQL 维表 Join 的实现

大数据技术周报第 010 期

实时数仓在有赞的实践

美团基于 Flink 的实时数仓平台建设新进展

基于Flink+Hive构建流批一体准实时数仓

实时数仓：基于流计算 Oceanus 实现 MySQL 和 HBase 维表到 ClickHouse 的实时分析

当 TiDB 与 Flink 相结合：高效、易用的实时数仓

flink维表关联系列之Mysql维表关联：全量加载

基于Flink的高可靠实时ETL系统

基于 Flink 实现的商品实时推荐系统(附源码)

【Flink】基于 Flink 的流式数据实时去重

Flink 实战 | 贝壳找房基于Flink的实时平台建设

Apache Hudi在华米科技的应用-湖仓一体化改造

Flink checkpoint

理解Flink checkpoint

flink checkpoint配置整理

flink checkpoint 源码分析（二）

聊聊flink的checkpoint配置

Flink中案例学习--State与CheckPoint

Flink源码阅读（一）--Checkpoint触发机制

Flink企业级优化全面总结（3万字长文，15张图）

Flink高频面试题，附答案解析

学习Flink，看这篇就够了

【最全的大数据面试系列】Flink面试题大全

Flink SQL Client综合实战

清单首页大数据文章详情

清单「大数据」 15/49

Flink学习笔记(2) -- Flink部署

挽风

1、Flink Local模式部署

Ⅰ、依赖环境：

linux机器

jdk1.8及以上【配置JAVA_HOME环境变量】

Ⅱ、下载地址

https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-hadoop27-scala_2.11.tgz

Ⅲ、local模式快速安装启动

(1)解压：tar -zxvf flink-1.6.1-bin-hadoop27-scala_2.11.tgz

(2)cd flink-1.6.1

(3)启动：./bin/start-cluster.sh

(4)停止：./bin/stop-cluster.sh

(5)访问web界面

http://hostname:8081

2、Flink StandAlone模式部署和解析

Ⅰ、依赖环境

jdk1.8及以上【配置JAVA_HOME环境变量】

ssh免密码登录【集群内节点之间免密登录】

Ⅱ、集群规划：

master(JobManager)+slave/worker(TaskManager)

hadoop100(master) hadoop101(slave) hadoop102(slave)

Ⅲ、集群安装

1：修改conf/flink-conf.yaml

jobmanager.rpc.address: hadoop100

2：修改conf/slaves

hadoop101

hadoop102

3：拷贝到其他节点

scp -rq /usr/local/flink-1.6.1 hadoop101:/usr/local

scp -rq /usr/local/flink-1.6.1 hadoop102:/usr/local

4：在hadoop100(master)节点启动

bin/start-cluster.sh

5：访问http://hadoop100:8081

Ⅳ、Flink配置文件重要参数解析

jobmanager.heap.mb：jobmanager节点可用的内存大小

taskmanager.heap.mb：taskmanager节点可用的内存大小

taskmanager.numberOfTaskSlots：每台机器可用的cpu数量

parallelism.default：默认情况下任务的并行度

taskmanager.tmp.dirs：taskmanager的临时数据存储目录

Ⅴ、slot和parallelism总结

1.slot是静态的概念，是指taskmanager具有的并发执行能力

2.parallelism是动态的概念，是指程序运行时实际使用的并发能力

3.设置合适的parallelism能提高运算效率，太多了和太少了都不行

Ⅵ、集群节点重启和扩容

启动jobmanager

如果集群中的jobmanager进程挂了，执行下面命令启动。

bin/jobmanager.sh start

bin/jobmanager.sh stop

启动taskmanager

添加新的taskmanager节点或者重启taskmanager节点

bin/taskmanager.sh start

bin/taskmanager.sh stop

Ⅶ、Flink standalone集群中job的容错

jobmanager挂掉

正在执行的任务会失败

存在单点故障，(Flink支持HA)

taskmanager挂掉

如果有多余的taskmanager节点，flink会自动把任务调度到其它节点执行

3、Flink on Yarn模式部署和解析

Ⅰ、依赖环境

至少hadoop2.2

hdfs & yarn

Ⅱ、Flink on Yarn 的两种使用方式

Flink on Yarn的两种运行方式：

第一种【yarn-session.sh(开辟资源)+flink run(提交任务)】

启动一个一直运行的flink集群

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d]

附着到一个已存在的flink yarn session

./bin/yarn-session.sh -id application_1463870264508_0029

执行任务

./bin/flink run ./examples/batch/WordCount.jar -input hdfs://hadoop100:9000/LICENSE -output hdfs://hadoop100:9000/wordcount-result.txt

停止任务【web界面或者命令行执行cancel命令】

第二种【flink run -m yarn-cluster(开辟资源+提交任务)】

启动集群，执行任务

./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 ./examples/batch/WordCount.jar

注意：client端必须要设置YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_HOME环境变量，通过这个环境变量来读取YARN和HDFS的配置信息，否则启动会失败

./bin/yarn-session.sh 命令分析：

./bin/flink run 命令分析：

Ⅲ、Flink在Yarn上的分布：

ResourceManager

NodeManager

AppMater(jobmanager和它运行在一个Container中)

Container(taskmanager运行在上面)

Ⅳ、使用on-yarn的好处：

提高集群机器的利用率

一套集群，可以执行MR任务，spark任务，flink任务等…

Ⅴ、Flink on yarn内部实现：

4、Flink HA -- JobManager HA jobManager协调每个flink任务部署。它负责任务调度和资源管理。默认情况下，每个flink集群只有一个JobManager，这将导致一个单点故障(SPOF)：如果JobManager挂了，则不能提交新的任务，并且运行中的程序也会失败。使用JobManager HA，集群可以从JobManager故障中恢复，从而避免SPOF(单点故障) 。用户可以在standalone或 YARN集群模式下，配置集群高可用。

大数据

Flink学习笔记(2) -- Flink部署

1、Flink Local模式部署

2、Flink StandAlone模式部署和解析

3、Flink on Yarn模式部署和解析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐