前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Flink使用中遇到的问题

Flink使用中遇到的问题

作者头像
神秘的寇先森
发布2020-02-19 10:53:54
1.7K1
发布2020-02-19 10:53:54
举报
文章被收录于专栏:Java进阶之路Java进阶之路
一、为啥checkpoint总超时

数据处理和 barrier 处理都由主线程处理,如果主线程处理太慢(比如使用 RocksDBBackend,state 操作慢导致整体处理慢),导致 barrier 处理的慢,也会影响整体 Checkpoint 的进度,在这一步我们需要能够查看某个 PID 对应 hotmethod,这里推荐两个方法: 1、 多次连续 jstack,查看一直处于 RUNNABLE 状态的线程有哪些; 2、使用工具 AsyncProfile dump 一份火焰图,查看占用 CPU 最多的栈;

二、作业失败,如何使用检查点

只需要指定检查点路径重启任务即可 bin/flink run -s :checkpointMetaDataPath [:runArgs] checkpointMetaDataPath : 这个是检查点元数据路径,并不简单是所配置的检查点的路径 参考:https://blog.csdn.net/lt793843439/article/details/89641904

三、总结下flink作业异常中断的操作流程

1、找出作业对应的jobID 2、进入hdfs对应目录,找到目录下面最新的检查点目录 3、通过指定检查点目录的方式重新启动作业 4、观察作业运行情况,如果出现内存溢出异常断开,加大内存重新启动。待作业运行稳定,查看作业最初异常中断的原因,记录下来并总结思考如何解决和避免。

四、怎么屏蔽flink checkpoint 打印的info 日志?

在log4j或者logback的配置文件里单独指定org.apache.flink.runtime.checkpoint.CheckpointCoordinator的日志级别为WARN

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、为啥checkpoint总超时
  • 二、作业失败,如何使用检查点
  • 三、总结下flink作业异常中断的操作流程
  • 四、怎么屏蔽flink checkpoint 打印的info 日志?
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档