腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1279495

阅读量

315

订阅数

Flink重点难点：维表关联理论和Join实战

flink 大数据 unix 编程算法

数据流操作的另一个常见需求是对两条数据流中的事件进行联结（connect）或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子：基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。

王知无-import_bigdata

2021-09-22

3.7K0

浅谈ZooKeeper中Kafka相关信息的存储

存储 kafka unix

在kafka.utils.ZkUtils对象的开头，预先定义了很多ZK路径，列举如下。

王知无-import_bigdata

2020-05-29

1.1K0

ProcessFunction：Flink最底层API使用踩坑记录

flink unix 大数据

DataStream与KeyedStreamd都有Process方法, DataStream接收的是ProcessFunction，而KeyedStream接收的是KeyedProcessFunction(原本也支持ProcessFunction，现在已被废弃)

王知无-import_bigdata

2020-05-11

2.5K0

Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理

编程算法大数据 unix

时间、窗口、水印、迟到数据这四个知识点几乎是Flink这个框架最难点。我之前发了很多文章来解释。很多同学仍然理解不了。

王知无-import_bigdata

2020-02-24

4.7K3

Flink事件时间、水印和迟到数据处理

之前的文章中已经屡次提到过Flink的事件时间（event time）、水印（watermark）、乱序（out-of-order）、迟到数据（late element）这些概念。

王知无-import_bigdata

2020-02-20

2.7K0

做数据开发就不需要了解G1了么？

海外加速 unix

G1（Garbadge First Collector）作为一款JVM最新的垃圾收集器，可以解决CMS中Concurrent Mode Failed问题，尽量缩短处理超大堆的停顿，在G1进行垃圾回收的时候完成内存压缩，降低内存碎片的生成。G1在堆内存比较大的时候表现出比较高吞吐量和短暂的停顿时间，而且已成为Java 9的默认收集器。未来替代CMS只是时间的问题。

王知无-import_bigdata

2019-12-19

8610

Flink Source/Sink探究与实践：RocketMQ数据写入HBase

unix 大数据 hbase TDSQL MySQL 版 apache

最近我们正在尝试把原有的一些Spark Streaming任务改造成Flink Streaming任务，自定义Source和Sink是遇到的第一个主要问题，稍微记录一下。

王知无-import_bigdata

2019-12-05

2.1K0

Flink全链路延迟的测量方式

FLink Job端到端延迟是一个重要的指标，用来衡量Flink任务的整体性能和响应延迟（大部分流式应用，要求低延迟特性）。

王知无-import_bigdata

2019-12-05

2.6K0

使用 Apache Flink 开发实时ETL

kafka hadoop 大数据 unix

场景描述：本文将介绍如何使用 Flink 开发实时 ETL 程序，并介绍 Flink 是如何保证其 Exactly-once 语义的。

王知无-import_bigdata

2019-09-23

2.3K0

Apache Flink：Keyed Window与Non-Keyed Window

windows 大数据 unix

Apache Flink中，Window操作在流式数据处理中是非常核心的一种抽象，它把一个无限流数据集分割成一个个有界的Window（或称为Bucket），然后就可以非常方便地定义作用于Window之上的各种计算操作。本文我们主要基于Apache Flink 1.4.0版本，说明Keyed Window与Non-Keyed Window的基本概念，然后分别对与其相关的WindowFunction与WindowAllFunction的类设计进行分析，最后通过编程实践来应用。

王知无-import_bigdata

2019-08-06

1.4K0

现代流式计算的基石：Google DataFlow

spark apache unix 大数据

今天这篇继续讲流式计算。继上周阿里巴巴收购 Apache Flink 之后，Flink 的热度再度上升。毫无疑问，Apache Flink 和 Apache Spark 现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Flink 的火热原因的时候总结了下面两点：

王知无-import_bigdata

2019-07-30

2.4K0

Kudu设计要点面面观(下篇)

hbase TDSQL MySQL 版 spark unix sql

参考：《Kudu设计要点面面观(上篇)》，本文适用知识共享-署名-相同方式共享（CC-BY-SA）3.0协议。

王知无-import_bigdata

2019-07-29

2.5K0

Stream SQL的执行原理与Flink的实现

sql 大数据数据处理 unix

本文作者：张茄子，来源于专栏：https://zhuanlan.zhihu.com/p/59643962

王知无-import_bigdata

2019-07-25

2.2K0

Flink基于EventTime和WaterMark处理乱序事件和晚到的数据

在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTime,不然很难理解watermark是怎么回事.

王知无-import_bigdata

2019-06-20

3.4K0

Flink进阶-Flink CEP(复杂事件处理)

FlinkCEP是在Flink之上实现的复杂事件处理（CEP）库。它允许你在×××的事件流中检测事件模式，让你有机会掌握数据中重要的事项。

王知无-import_bigdata

2019-06-19

15.3K2

Flink1.8.0重大更新-Flink中State的自动清除详解

在我们开发Flink应用时，许多有状态流应用程序的一个常见要求是自动清理应用程序状态以有效管理状态大小，或控制应用程序状态的访问时间。 TTL(Time To Live)功能在Flink 1.6.0中开始启动，并在Apache Flink中启用了应用程序状态清理和高效的状态大小管理。

王知无-import_bigdata

2019-05-29

6.6K1

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态