暴走大数据

LV0
发表了文章

Flink源码解读系列 | 任务提交流程

Flink在1.10版本对整个作业提交流程有了较大改动,详情请见FLIP-73。本文基于1.10对作业提交的关键流程进行分析,不深究。 入口: 依旧是main函...

暴走大数据
发表了文章

Flink源码解读系列 | Flink中异步AsyncIO的实现

主要区别是往下游output的顺序(注意这里顺序不是写库的顺序既然都异步了写库的顺序自然是无法保证的),有序的会按接收的顺序继续往下游output发送,无序就是...

暴走大数据
发表了文章

Flink源码解读系列 | Flink中的CEP复杂事件处理源码分析

其实CEP复杂事件处理,简单来说你可以用通过类似正则表达式的方式去表示你的逻辑,表现能力非常的强,用过的人都知道

暴走大数据
发表了文章

Flink源码解读系列 | Flink中接收端反压以及Credit机制

可以看到每个task都会有自己对应的IG(inputgate)对接上游发送过来的数据和RS(resultPatation)对接往下游发送数据, 整个反压机制通过...

暴走大数据
发表了文章

Flink源码解读系列 | Flink中发送端反压以及Credit机制

上一篇《Flink接收端反压机制》说到因为Flink每个Task的接收端和发送端是共享一个bufferPool的,形成了天然的反压机制,当Task接收数据的时候...

暴走大数据
发表了文章

Flink源码解读系列 | Flink中TaskManager端执行用户逻辑过程

TaskManager接收到来自JobManager的jobGraph转换得到的TDD对象,启动了任务,在StreamInputProcessor类的proce...

暴走大数据
发表了文章

Flink源码解读系列 | Periodic水印和Punctuated水印实现原理

在用户代码中,我们设置生成水印和事件时间的方法assignTimestampsAndWatermarks()中这里有个方法的重载

暴走大数据
发表了文章

Flink源码解读系列 | Job启动TaskManager端

先来看一下,TaskManager端用来接收JobManager发送过来的TDD对象的RPC接口

暴走大数据
发表了文章

Flink源码解读系列 | Flink集群Standalone启动脚本

在最后调用了jobmanager.sh start 这个脚本和config.sh 中的TMSlaves 这个方法,分别启动了jobmanager和taskma...

暴走大数据
发表了文章

Flink 源码解读系列 | Flink的Job启动Driver端

整个Flink的Job启动是通过在Driver端通过用户的Envirement的execute()方法将用户的算子转化成StreamGraph

暴走大数据
发表了文章

Flink源码解读系列 | JobManager启动

在启动脚本里面已经找到了jobmanager的启动类org.apache.flink.runtime.entrypoint.StandaloneSessionC...

暴走大数据
发表了文章

Flink源码解读系列 | TaskManager启动

通过启动脚本已经找到了TaskManager 的启动类org.apache.flink.runtime.taskexecutor.TaskManagerRunn...

暴走大数据
发表了文章

Spark Core项目实战 | 页面单跳转化率统计

暴走大数据
发表了文章

Spark Core项目实战 | Top10 热门品类

本实战项目的数据是采集自电商的用户行为数据. 主要包含用户的 4 种行为: 搜索, 点击, 下单和支付. 数据格式如下, 不同的字段使用下划线分割开_:

暴走大数据
发表了文章

最新更新 | Kafka - 2.6.0版本发布新特性说明

以下是Kafka 2.6.0版本中解决JIRA问题的摘要,有关该版本的完整文档,入门指南以及关于该项目的信息,请参考Kafka官方文档。

暴走大数据
发表了文章

CDH5.11 离线安装或者升级spark2.x详细步骤

在我CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的...

暴走大数据
发表了文章

ClickHouse 数据存储架构优化

我们最初当时的ClickHouse的版本还是在1.x的时代,partition还不支持自定义,只能按月来划分。我们组内的数据存储还是按天来分表设计,例如“XXX...

暴走大数据
发表了文章

Flink Timer(定时器)机制及实现详解

Timer(定时器)是Flink Streaming API提供的用于感知并利用处理时间/事件时间变化的机制。官网上给出的描述如下:

暴走大数据
发表了文章

简析Spark Streaming/Flink的Kafka动态感知

Kafka是我们日常的流处理任务中最为常用的数据源之一。随着数据类型和数据量的增大,难免要增加新的Kafka topic,或者为已有的topic增加更多part...

暴走大数据
发表了文章

Flink写出数据到HBase的Sink实现

暴走大数据

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券