首页
学习
活动
专区
工具
TVP
发布

大数据进阶

专栏作者
95
文章
137598
阅读量
19
订阅数
flink rocketmq消费和写入数据
通过yaml文件可知总共有三个组件:分别为nameserver, broker, web console
yiduwangkai
2021-11-24
4.4K0
flinkx数据同步
git clone https://github.com/DTStack/flinkx.git
yiduwangkai
2021-11-22
1.9K0
hudi同步hive出现错误java.lang.NoSuchMethodError
flink写入hudi,开启自动同步 hudi表结构如下: CREATE TABLE myhive.test.hudi_users2_m_has_s ( id BIGINT PRIMARY KEY NOT ENFORCED, name STRING, birthday TIMESTAMP(3), ts TIMESTAMP(3) ) WITH ( 'connector' = 'hudi', 'table.type' = 'MERG
yiduwangkai
2021-10-22
1.8K0
使用Prometheus+Grafana监控Flink on YARN作业
实时作业要保证7 x 24运行,除了要在业务逻辑和编码上下功夫之外,好的监控系统也是必不可少的。Flink支持多种汇报监控指标(metrics)的reporter,如JMX、SLF4J、InfluxDB、Prometheus等。
yiduwangkai
2021-09-10
1.8K0
flink etl
这种 join 方式需要去保留两个流的状态,持续性地保留并且不会去做清除。两边的数据对于对方的流都是所有可见的,所以数据就需要持续性的存在state里面,那么 state 又不能存的过大,因此这个场景的只适合有界数据流或者结合ttl state配合使用。它的语法可以看一下,比较像离线批处理的 SQL
yiduwangkai
2021-07-14
1K0
搭建高可用的flink JobManager HA
JobManager协调每个flink应用的部署,它负责执行定时任务和资源管理。每一个Flink集群都有一个jobManager, 如果jobManager出现问题之后,将不能提交新的任务和运行新任务失败,这样会造成单点失败,所以需要构建高可用的JobMangager。
yiduwangkai
2021-06-29
1.4K0
flink的类加载机制
我们知道,在 JVM 中,一个类加载的过程大致分为加载、链接(验证、准备、解析)、初始化5个阶段。而我们通常提到类的加载,
yiduwangkai
2021-05-27
2K0
flink mysql数据接入
[ERROR] Could not execute SQL statement. Reason: org.apache.kafka.connect.errors.DataException: name is not a valid field name
yiduwangkai
2021-05-18
9240
flink(13)-flink on yarn源代码分析
session cluster和per job 因为是源码分析,所以会分为服务端和客户端两个部分的代码分析,下面我先看服务端<br/>
yiduwangkai
2020-04-24
1.4K0
flink(12)-flink on yarn
flink yarn flink on yarn有两种模式,分别是session cluster和per job
yiduwangkai
2020-04-24
7880
【译】如何调整ApacheFlink®集群的大小How To Size Your Apache Flink® Cluster: A Back-of-the-Envelope Calculation
来自Flink Forward Berlin 2017的最受欢迎的会议是Robert Metzger的“坚持下去:如何可靠,高效地操作Apache Flink”。 Robert所涉及的主题之一是如何粗略地确定Apache Flink集群的大小。 Flink Forward的与会者提到他的群集大小调整指南对他们有帮助,因此我们将他的谈话部分转换为博客文章。 请享用!
yiduwangkai
2019-09-17
1.7K0
A Practical Guide to Broadcast State in Apache Flink
从版本1.5.0开始,Apache Flink具有一种称为广播状态的新型状态。 在这篇文章中,我们解释了广播状态是什么,并展示了如何将其应用于评估事件流上的动态模式的应用程序的示例。 我们将引导您完成开发步骤和代码,以实现此应用程序。
yiduwangkai
2019-09-17
8190
【译】Flink Network Stack Vol. 2: Monitoring, Metrics, and that Backpressure Thing
在之前的博文中,我们介绍了Flink的网络堆栈如何从高级抽象到低级细节。 此系列网络堆栈帖子中的第二篇博客文章扩展了这一知识,并讨论了监视与网络相关的指标,以识别诸如背压或吞吐量和延迟瓶颈等影响。 虽然这篇文章简要介绍了如何处理背压,但未来的帖子将进一步研究调整网络堆栈的主题。 如果您不熟悉网络堆栈,我们强烈建议先深入阅读网络堆栈然后继续。
yiduwangkai
2019-09-17
5450
【译】A Deep-Dive into Flink's Network Stack(3)
单个 TaskManager 上的缓冲区总数通常不需要配置。需要配置时请参阅配置网络缓冲区文档。
yiduwangkai
2019-09-17
1.1K0
【译】A Deep-Dive into Flink's Network Stack(2)
对于下图所示的示例,我们将假设4的并行性和具有两个任务管理器的部署,每个任务管理器提供2个插槽。 TaskManager 1执行子任务A.1,A.2,B.1和B.2,TaskManager 2执行子任务A.3,A.4,B.3和B.4。 在任务A和任务B之间的随机类型连接中,例如从keyBy(),在每个TaskManager上有2x4个逻辑连接,其中一些是本地的,一些是远程的:
yiduwangkai
2019-09-17
4670
【译】A Deep-Dive into Flink's Network Stack(1)
Flink的网络堆栈是组成flink-runtime模块的核心组件之一,是每个Flink工作的核心。 它连接所有TaskManagers的各个工作单元(子任务)。 这是您的流式传输数据流经的地方,因此,对于吞吐量和您观察到的延迟,Flink作业的性能至关重要。 与通过Akka使用RPC的TaskManagers和JobManagers之间的协调通道相比,TaskManagers之间的网络堆栈依赖于使用Netty的低得多的API。
yiduwangkai
2019-09-17
8731
flink系列(10)-状态State和状态描述StateDescriptor
InternalKVState 提供了只对 Flink 引擎暴露的接口比如 namespace set/get、val get、namespace merging,这些接口并不稳定,Flink 引擎希望对上层应用屏蔽,而通过 State 接口暴露出来的方法普通用户是可以使用的。
yiduwangkai
2019-09-17
3K0
flink系列(9)-flink任务提交流程分析
连续写了几天的flink StreamGraph的代码,今天闲来说一下flink的启动,今天主要说的是本地模式(LocalStreamEnvironment)启动
yiduwangkai
2019-09-17
1.9K0
【转】分布式数据流的轻量级异步快照
本篇翻译自论文:Lightweight Asynchronous Snapshots for Distributed Dataflows,Flink的容错快照模型即来源于该论文。原文地址:https://arxiv.org/pdf/1506.08603.pdf
yiduwangkai
2019-09-17
9280
flink系列(7)-streamGraph
StreamGraph是flink四层执行图中的第一层图,代码在org.apache.flink.streaming.api.graph包中,第一层graph主要做的事情是将所有的stransformation添加到DAG中,并设置并行度,设置slot槽位
yiduwangkai
2019-09-17
8840
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档