首页
学习
活动
专区
工具
TVP
发布

kk大数据

专栏作者
116
文章
197977
阅读量
42
订阅数
SparkSQL 如何选择 join 策略
Join 操作是大数据分析领域必不可少的操作,本文将从原理层面介绍 SparkSQL 支持的五大连接策略及其应用场景。
kk大数据
2024-02-28
1250
谈一谈 Kafka 在 CAP 三大特性之间做的妥协和改进
CAP 定理是分布式架构设计的基本理论,本身并不复杂。 是由三个单词组成,分别是:
kk大数据
2023-03-03
6760
如何理解大数据框架中的分区概念
随着科技进步互联网的发展,各行各业产生的数据越来越多,由此催生了大量的数据处理需求。
kk大数据
2023-03-03
6330
浅谈 Flink 的状态和容错(1)
都说 Flink 是有状态计算,那么什么是状态?状态有什么用?没有状态程序会怎么样?
kk大数据
2023-03-03
3660
浅谈 Flink 窗口
https://blog.csdn.net/mynameisgt/article/details/124223193
kk大数据
2023-03-03
3880
漫谈 Flink 水印 - watermark
在人类生存的地球上,存在着一种很神秘的东西:时间,它看不见摸不着,但速度恒定,单调递增且永无止境的往前推进,人类的历史被淹没在茫茫的时间长河中。
kk大数据
2023-03-03
5290
说一说你对 Kafka 中 ISR 的理解
首先,ISR 的全称叫做:In-Sync Replicas (同步副本集), 我们可以理解为和 leader 保持同步的所有副本的集合。
kk大数据
2023-03-03
1.1K0
Hive 分桶表及其调优实战
举个例子,每天产生的日志可以建立分区表,每个分区在 hdfs 上就是一个目录,这个目录下包含了当天的所有日志记录。
kk大数据
2022-05-16
9880
元宇宙会是互联网的下一站吗?
早在 1992 年,在斯蒂芬森的科幻小说《雪崩》中就第一次提及了元宇宙。书中描述了一个名为 Metaverse 的虚拟世界,人们只要通过公共的入口连接,就能以虚拟化身的形象进入其中活动。
kk大数据
2021-12-20
5270
Apache DolphinScheduler 2.0.1 来了,备受期待的一键升级、插件化终于实现!
好消息!Apache DolphinScheduler 2.0.1 版本今日正式发布!
kk大数据
2021-12-20
1.9K0
当 Redis 原生支持 JSON,大厂程序员都说它像德芙一样丝滑
喜大普奔,Redis 官方支持 JSON 操作了,当我看到这个消息时,我的脑海中立马闪过这些操作:
kk大数据
2021-12-20
7.1K0
Java 生态爆出史诗级漏洞,N 多程序员连夜修复,进度如何了
Apache Log4j2 是一款开源的 Java 日志记录工具,大量的业务框架都使用了该组件。
kk大数据
2021-12-13
5360
一文彻底了解元数据管理与架构设计
数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:
kk大数据
2021-12-02
5.9K0
Spark 源码(9)- Worker 启动 Executor 源码阅读
上一次阅读到 Master 调用 schedule() 方法,遍历 waitingApps,为每个程序决定启动多少 Executor,为每个 Executor 分配多少资源,有了这些信息之后,给 Worker 发送了一个 LaunchExecutor 消息,Worker 开始处理。
kk大数据
2021-11-16
4930
Spark 源码(8) - Master分配资源并在Worker上启动Executor ,逐行代码注释版
上一次阅读到了 SparkContext 初始化,继续往下之前,先温故一下之前的内容。
kk大数据
2021-11-05
5550
Spark 源码(1) - 通信基石之 Spark Rpc 的发展历程
又开始更文了,前面一个多月忙了点别的事情,也给自己放了小假,修整修整,大家应该还没取关我吧,谢谢哈!
kk大数据
2021-10-12
4100
Spark 源码(2) - Spark Rpc 三剑客的理解
谈到 Spark Rpc ,不得不提到 Spark Rpc 的三剑客:RpcEnv,RpcEndpoint,RpcEndpointRef。
kk大数据
2021-10-12
6010
Spark 源码(3) - Master 启动之持久化引擎和选举代理
上回讲到,Master 的 main 方法中,创建了 RpcEnv 和 Master 的 Endpoint,紧接着就开始执行 Endpoint 的生命周期方法 onStart() 方法,今天就从这里开始。
kk大数据
2021-10-12
3430
Spark 源码(4) - Worker 启动流程
今天来看看 Worker 的启动流程,Worker 的启动是从 Shell 脚本开始的,Shell 脚本中就是从 Worker 类的 main 方法开始执行的,所以就从 main 方法开始看。
kk大数据
2021-10-12
4160
Spark 源码(5) - 从 SparkSubmit 开始看任务提交
上次我们已经说完了 Spark Standalone 的 Master 和 Worker 的启动流程,本次我们从一个提交 Spark 作业的命令开始阅读 Spark 任务提交的源码。
kk大数据
2021-10-12
4140
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档