首页
学习
活动
专区
工具
TVP
发布

kk大数据

专栏作者
116
文章
197059
阅读量
42
订阅数
如何理解大数据框架中的分区概念
随着科技进步互联网的发展,各行各业产生的数据越来越多,由此催生了大量的数据处理需求。
kk大数据
2023-03-03
6280
浅谈 Flink 的状态和容错(1)
都说 Flink 是有状态计算,那么什么是状态?状态有什么用?没有状态程序会怎么样?
kk大数据
2023-03-03
3650
浅谈 Flink 窗口
https://blog.csdn.net/mynameisgt/article/details/124223193
kk大数据
2023-03-03
3860
漫谈 Flink 水印 - watermark
在人类生存的地球上,存在着一种很神秘的东西:时间,它看不见摸不着,但速度恒定,单调递增且永无止境的往前推进,人类的历史被淹没在茫茫的时间长河中。
kk大数据
2023-03-03
5260
Hive 分桶表及其调优实战
举个例子,每天产生的日志可以建立分区表,每个分区在 hdfs 上就是一个目录,这个目录下包含了当天的所有日志记录。
kk大数据
2022-05-16
9760
一文彻底了解元数据管理与架构设计
数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:
kk大数据
2021-12-02
5.8K0
修炼内功,一文梳理分布式事务及相关算法,剖析 Flink 端到端的一致性
临界知识这个概念,是我上个月读《好好学习:个人知识管理精进指南》这本书学到的概念,真的有被启发到,现在觉得它对于我们深刻了解世界有着非常大的作用。
kk大数据
2021-07-30
6000
Flink Metrics监控与 RestApi
Flink 的 metrics 是 Flink 公开的一个度量系统,metrics 也可以暴露给外部系统,通过在 Flink 配置文件 conf/flink-conf.yaml 配置即可,Flink原生已经支持了很多reporter,如 JMX、InfluxDB、Prometheus 等等。
kk大数据
2021-07-09
3.6K0
面试大数据必问的一道题,这次不死记硬背,直接看源码,惊艳一下面试官
那每次准备面试前,自然是先百度一番,复制一下答案,1 2 3 4 5 6 点,背一背完事。但是面试完,还是不了解 HDFS 写数据流程内部究竟是怎么实现的。
kk大数据
2021-04-22
5100
NameNode 用了什么神秘技术来支撑元数据百万并发读写的
我们都知道,HDFS 是大数据存储的基石,所有的离线数据都存储在 HDFS 上,而 NameNode 是存储所有元数据的地方(所谓元数据就是描述数据的数据,比如文件的大小,文件都存储在哪些 DataNode 上,文件在目录树的位置等),所以 NameNode 便成为了 HDFS 最关键的部分。
kk大数据
2021-03-30
5860
如何阅读百万行 Hadoop 的源码?来一起读 NameNode 启动过程的源码,初窥其境
首先 hadoop 是用 java 写的,所以一些 java 基础知识必不可少,比如锁,线程,设计模式,java 虚拟机,java io,不求很深入,基础得知道。
kk大数据
2021-03-30
4350
我发现了 高性能异步编程 和 实时流模型 那千丝万缕的联系!
本次我们来实现一个支持百万并发连接数的采集服务器,并且找到异步+ NIO 的编程方式和实时流模型的那些千丝万缕的联系。
kk大数据
2021-03-15
3630
Flink 是如何将你写的代码生成 StreamGraph 的 (上篇)
为什么要“大致”阅读,因为这些牛逼的框架都是层层封装,搞懂核心原理已经是很不易,更别谈熟读源码了。
kk大数据
2021-03-13
1.2K0
Flink 状态管理详解(State TTL、Operator state、Keyed state)
Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。
kk大数据
2021-02-24
6.6K0
Flink 开发生产问题汇总,亲自解决的才是最宝贵的
当一个Flink App背压的时候(例如由外部组件异常引起),Barrier会流动的非常缓慢,导致Checkpoint时长飙升。
kk大数据
2021-02-24
2.6K0
阅读 Flink 源码前必知必会 - SPI 和 ClassLoader
Java 中的类加载器,是 Java 运行时环境的一部分,负责动态加载 Java 类到 Java 虚拟机的内存中。
kk大数据
2021-02-07
1.2K1
Flink Client 实现原理与源码解析(保姆级教学)
这次我们的目的是,在本地的 IDEA 中去 debug flink-clients 代码,然后远程提交给 flink standalone 集群上去执行,看一看 flink 客户端在提交代码之前都干了什么。
kk大数据
2021-02-07
2.2K0
Flink SQL 核心概念剖析与编程案例实战
本次,我们从 0 开始逐步剖析 Flink SQL 的来龙去脉以及核心概念,并附带完整的示例程序,希望对大家有帮助!
kk大数据
2021-01-12
6510
图解 Flink Checkpoint 原理及在 1.11 版本的优化
上次发文,提到了 Flink 可以非常高效的进行有状态流的计算,通过使用 Flink 内置的 Keyed State 和 Operator State,保存每个算子的状态。
kk大数据
2020-12-29
2.3K0
Flink 核心组件原理 多图剖析
TaskManager 是工作节点,负责数据交换,跑多个线程的 task,执行任务。
kk大数据
2020-12-29
1.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档