首页
学习
活动
专区
工具
TVP
发布

皮皮鲁的AI星球

专栏作者
79
文章
179716
阅读量
34
订阅数
Flink Checkpoint机制原理剖析与参数配置
在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机或网络中断等问题,那么本地的状态在遇到故障时如何保证不丢呢?Flink定期保存状态数据到存储上,故障发生后从之前的备份中恢复,整个被称为Checkpoint机制,它为Flink提供了Exactly-Once的投递保障。本文将介绍Flink的Checkpoint机制的原理。本文会使用多个概念:快照(Snapshot)、分布式快照(Distributed Snapshot)、检查点(Checkpoint)等,这些概念均指的是Flink的Checkpoint机制,读者可以将这些概念等同看待。
PP鲁
2020-02-17
1.5K0
Kafka能做什么?十分钟构建你的实时数据流管道
本文将对Kafka做一个入门简介,并展示如何使用Kafka构建一个文本数据流管道。通过本文,读者可以了解一个流处理数据管道(Pipeline)的大致结构:数据生产者源源不断地生成数据流,数据流通过消息队列投递,数据消费者异步地对数据流进行处理。
PP鲁
2019-12-26
2.6K1
Flink笔记02 | 一文读懂流式大数据引擎的基础概念
最近我在学习流式计算引擎Flink,正在阅读Flink的官方文档、一些技术博客以及《Streaming Processing with Apache Flink》这本书,并试图将一些知识整理下来,形成一个系列。
PP鲁
2019-12-26
1.4K1
都在追捧的新一代大数据引擎Flink到底有多牛?
提起大数据处理引擎,很多人会想到Hadoop或Spark,而在2019年,如果你身处大数据行业却没听说过Flink,那你很可能OUT了!Flink是大数据界冉冉升起的新星,是继Hadoop和Spark之后的新一代大数据处理引擎。2019年初,阿里巴巴以1.033亿美元的价格收购了总部位于德国柏林的初创公司Data Artisans,Data Artisans的核心产品是正是Flink。
PP鲁
2019-12-26
9670
Flink核心概念:系统架构、时间处理、状态与检查点
上图的Flink示例程序对一个数据流做简单处理,整个过程包括了输入(Source)、转换(Transformation)和输出(Sink)。程序由多个DataStream API组成,这些API,又被称为算子 (Operator),共同组成了逻辑视角。在实际执行过程中,逻辑视角会被计算引擎翻译成可并行的物理视角。
PP鲁
2019-12-25
2.1K0
从Hadoop到Spark、Flink,大数据处理框架十年激荡发展史
当前这个数据时代,各领域各业务场景时时刻刻都有大量的数据产生,如何理解大数据,对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流行技术。
PP鲁
2019-12-25
2.2K0
批处理衰落,流处理兴起,大数据处理平台从Lambda到Kappa的演进
流处理引擎经历了从Storm到Spark Streaming再到Flink的三代的技术迭代,大数据处理也随之经历了从Lambda架构到Kappa架构的演进。本节以电商平台的数据分析为例,来解释大数据处理平台如何支持企业在线服务。电商平台会将用户在APP或网页的搜索、点击和购买行为以日志的形式记录下来,用户的各类行为形成了一个实时数据流,我们称之为用户行为日志。
PP鲁
2019-12-25
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档