首页
学习
活动
专区
工具
TVP
发布

Java进阶之路

专栏作者
68
文章
135519
阅读量
26
订阅数
Flink内存管理
自从2003-2006年,Google发表了三篇著名的大数据相关论文(Google FS,MapReduce,Big Table)后,内存问题一直困扰大数据工程师们。
神秘的寇先森
2020-03-20
7310
理解Flink watermark
所谓事件时间,就是Flink DataStream中的数据元素自身带有的、其实际发生时记录的时间戳,具有业务含义,并与系统时间独立。很显然,由于外部系统产生的数据往往不能及时、按序到达Flink系统,所以事件时间比处理时间有更强的不可预测性。
神秘的寇先森
2020-02-19
1.2K0
Flink使用中遇到的问题
数据处理和 barrier 处理都由主线程处理,如果主线程处理太慢(比如使用 RocksDBBackend,state 操作慢导致整体处理慢),导致 barrier 处理的慢,也会影响整体 Checkpoint 的进度,在这一步我们需要能够查看某个 PID 对应 hotmethod,这里推荐两个方法: 1、 多次连续 jstack,查看一直处于 RUNNABLE 状态的线程有哪些; 2、使用工具 AsyncProfile dump 一份火焰图,查看占用 CPU 最多的栈;
神秘的寇先森
2020-02-19
1.7K1
理解Flink checkpoint
Checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的Checkpoint机制原理来自“Chandy-Lamport algorithm”算法 (分布式快照算法)。 参考:checkpoint
神秘的寇先森
2020-02-19
1.4K0
Flink on YARN 基础架构与启动流程
本文转载Flink官方社区文章:一张图轻松掌握 Flink on YARN 基础架构与启动流程
神秘的寇先森
2020-02-19
2.1K0
Flink架构
Flink整体由JobManager和TaskManager组成,遵循主从设计原则,JobManager为Master节点,TaskManager为worker节点,组件之间通信是借助Akka Framework;
神秘的寇先森
2020-02-19
1.1K0
数据可视化工具zeppelin安装与使用
下载安装包,修改配置文件 登录zeppeline官网 下载完解压缩 复制zeppelin-env.sh.template重命名为zeppelin-env.sh 复制zeppelin-site.xml.template重命名为zeppelin-site.xml,编辑文件 <property> <name>zeppelin.server.port</name> <value>8089</value> <description>Server port.</description> </propert
神秘的寇先森
2020-02-13
1.6K0
轻松理解Hbase面向列的存储
说明:从严格的列式存储的定义来看,Hbase并不属于列式存储,有人称它为面向列的存储,请各位看官注意这一点。
神秘的寇先森
2019-01-28
2.8K0
springboot创建及使用多线程的几种方式
在数据处理中,多线程用到的场景很多,在满足计算机CPU处理能力的情况下,使用多线程可以明显提高程序运行效率,缩短大数据处理的能力。作为java程序开发,离不开spring,那么在spring中怎么创建多线程并将注册到spring的类在多线程中使用呢?我自己总结了一下,可以有两种方式,使用线程池和spring自带多线程注解使用。 使用线程池 我一般使用固定线程数量的线程池,假如数据量很大,我会将数据放到一个大集合中,然后按照一定的比例分配数目,同时我自己写了一个分页类,线程的数量可以根据分页类来自动调整。看代
神秘的寇先森
2018-06-19
8.4K1
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档