首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1279495
阅读量
315
订阅数
Flink重点难点:维表关联理论和Join实战
数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。
王知无-import_bigdata
2021-09-22
3.7K0
浅谈ZooKeeper中Kafka相关信息的存储
在kafka.utils.ZkUtils对象的开头,预先定义了很多ZK路径,列举如下。
王知无-import_bigdata
2020-05-29
1.1K0
ProcessFunction:Flink最底层API使用踩坑记录
DataStream与KeyedStreamd都有Process方法, DataStream接收的是ProcessFunction,而KeyedStream接收的是KeyedProcessFunction(原本也支持ProcessFunction,现在已被废弃)
王知无-import_bigdata
2020-05-11
2.5K0
Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理
时间、窗口、水印、迟到数据这四个知识点几乎是Flink这个框架最难点。我之前发了很多文章来解释。很多同学仍然理解不了。
王知无-import_bigdata
2020-02-24
4.7K3
Flink事件时间、水印和迟到数据处理
之前的文章中已经屡次提到过Flink的事件时间(event time)、水印(watermark)、乱序(out-of-order)、迟到数据(late element)这些概念。
王知无-import_bigdata
2020-02-20
2.7K0
做数据开发就不需要了解G1了么?
G1(Garbadge First Collector)作为一款JVM最新的垃圾收集器,可以解决CMS中Concurrent Mode Failed问题,尽量缩短处理超大堆的停顿,在G1进行垃圾回收的时候完成内存压缩,降低内存碎片的生成。G1在堆内存比较大的时候表现出比较高吞吐量和短暂的停顿时间,而且已成为Java 9的默认收集器。未来替代CMS只是时间的问题。
王知无-import_bigdata
2019-12-19
8610
Flink Source/Sink探究与实践:RocketMQ数据写入HBase
最近我们正在尝试把原有的一些Spark Streaming任务改造成Flink Streaming任务,自定义Source和Sink是遇到的第一个主要问题,稍微记录一下。
王知无-import_bigdata
2019-12-05
2.1K0
Flink全链路延迟的测量方式
FLink Job端到端延迟是一个重要的指标,用来衡量Flink任务的整体性能和响应延迟(大部分流式应用,要求低延迟特性)。
王知无-import_bigdata
2019-12-05
2.6K0
使用 Apache Flink 开发实时ETL
场景描述:本文将介绍如何使用 Flink 开发实时 ETL 程序,并介绍 Flink 是如何保证其 Exactly-once 语义的。
王知无-import_bigdata
2019-09-23
2.3K0
Apache Flink:Keyed Window与Non-Keyed Window
Apache Flink中,Window操作在流式数据处理中是非常核心的一种抽象,它把一个无限流数据集分割成一个个有界的Window(或称为Bucket),然后就可以非常方便地定义作用于Window之上的各种计算操作。本文我们主要基于Apache Flink 1.4.0版本,说明Keyed Window与Non-Keyed Window的基本概念,然后分别对与其相关的WindowFunction与WindowAllFunction的类设计进行分析,最后通过编程实践来应用。
王知无-import_bigdata
2019-08-06
1.4K0
现代流式计算的基石:Google DataFlow
今天这篇继续讲流式计算。继上周阿里巴巴收购 Apache Flink 之后,Flink 的热度再度上升。毫无疑问,Apache Flink 和 Apache Spark 现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Flink 的火热原因的时候总结了下面两点:
王知无-import_bigdata
2019-07-30
2.4K0
Kudu设计要点面面观(下篇)
参考:《Kudu设计要点面面观(上篇)》,本文适用知识共享-署名-相同方式共享(CC-BY-SA)3.0协议。
王知无-import_bigdata
2019-07-29
2.5K0
Stream SQL的执行原理与Flink的实现
本文作者:张茄子,来源于专栏:https://zhuanlan.zhihu.com/p/59643962
王知无-import_bigdata
2019-07-25
2.2K0
Flink基于EventTime和WaterMark处理乱序事件和晚到的数据
在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTime,不然很难理解watermark是怎么回事.
王知无-import_bigdata
2019-06-20
3.4K0
Flink进阶-Flink CEP(复杂事件处理)
FlinkCEP是在Flink之上实现的复杂事件处理(CEP)库。 它允许你在×××的事件流中检测事件模式,让你有机会掌握数据中重要的事项。
王知无-import_bigdata
2019-06-19
15.3K2
Flink1.8.0重大更新-Flink中State的自动清除详解
在我们开发Flink应用时,许多有状态流应用程序的一个常见要求是自动清理应用程序状态以有效管理状态大小,或控制应用程序状态的访问时间。 TTL(Time To Live)功能在Flink 1.6.0中开始启动,并在Apache Flink中启用了应用程序状态清理和高效的状态大小管理。
王知无-import_bigdata
2019-05-29
6.6K1
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档