简单聊聊Spark

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在本文开始之前，作者一直有个疑惑，就是面试题是只写写问题和答案就草草了事，还是应该深入分析一下其背后发生的一些原理。和朋友探讨以后作者还是决定采用后者的方式，因为我认为不仅要做到知其一，更要知其二，所以我们就用讲解原理的方式来看看 Kafka 常见的面试题吧。另外避免文章过长，我打算接下来使用几篇文章来详解每道题背后的原理。好了废话有点多，直接开干。

Kafka系列9：面试题是否有必要深入了解其背后的原理？我觉得应该刨根究底（上）

通过前面 7 篇文章的介绍，小伙伴们应该对 Kafka 运行工作原理有一个相对比较清晰的认识了。为了提高平时的工作效率，帮助我们快速定位一些线上问题，比如查看部分 Partition 堆积机器 IP 等操作，这篇文章总结了一些平时常用到的一些 Kafka 命令及常用配置，方便日后查阅（该文章中提到的相关配置会持续更新）。

Kafka系列8：一网打尽常用脚本及配置，宜收藏落灰！

上篇文章讲到了消息在 Partition 上的存储形式，本来准备接着来聊聊生产中的一些使用方式，想了想还有些很重要的工作组件原理没有讲清楚，比如一个 Topic 由 N 个 Partition 组成，那么这些 Partition 是如何均匀的分布在不同的 Broker 上？再比如当一个 Broker 宕机后，其上负责读写请求的主 Partition 无法正常访问，如何让从 Partition 转变成主 Partition 来继续提供正常的读写服务？想要解决这些问题，就必须先要了解一下 Kafka 集群内部的管理机制，其中一个非常重要的控制器就是 KafkaController。本文我们就来讲讲 KafkaController 是如何来解决上面提到的那些问题的。

Kafka系列第7篇：你必须要知道集群内部工作原理的一些事！

经过前几篇文章的介绍，大致了解了生产者背后的运行原理。消息有生产就得有人去消费，今天我们就来介绍下消费端消费消息背后发生的那点事儿。

kafka系列第5篇：一文读懂消费者背后的那点"猫腻"

经过前 5 篇文章的介绍，估么着小伙伴们已经对消息生产和消费的流程应该有一个比较清晰的认识了。当然小伙伴们肯定也比较好奇，Kafka 能够处理千万级消息，那它的消息是如何在 Partition 上存储的呢？今天这篇文章就来为大家揭秘消息是如何存储的。本文主要从消息的逻辑存储和物理存储两个角度来介绍其实现原理。

Kafka系列第6篇：消息是如何在服务端存储与读取的，你真的知道吗？

如果有幸目睹过系统从零到一的演变过程，大家估计都会有一种感叹，就是随着业务复杂度和流量的不断上升，系统变得越来越难以维护，面对高额的维护成本，攻城师们不得不对现有架构进行改造升级，以便使得系统更适合当下业务的发展。

Kafka系列文章第1篇之Kafka是什么

上篇文章讲解了 Kafka 的基础概念和架构，了解了基本概念之后，必须得实践一波了，所谓“实践才是检验真理的唯一办法”，后续系列关于 Kafka 的文章都以 kafka_2.11-0.9.0.0 为例；另外为了让大家快速入门，本文只提供单机版的安装实战教程，如果有想尝试集群方案的，后面在出一篇集群安装的教程，废话不多说了，直接开干。

Kafka系列文章第2篇之安装测试

经过上篇文章的简单实战之后，今天来聊聊生产者将消息从客户端发送到 Broker 上背后发生了哪些故事，看不看由你，但是我保证可以本篇文章你一定可以学到应用背后的一些实质东西。

重要：Kafka第3篇之一条消息如何被存储到Broker上

上篇文章讲述了消息从生产到写入到 Broker 的 partition 上背后发生的故事，并提出了消息发送的网络模型的问题。本篇文章我们来尝试揭开其背后的神秘面纱，耐心看完你一定会有所收获。

Kafka系列第4篇：消息发送背后网络操作的那点事儿

        最近一直在忙，没顾得上写文章，新年的第一篇文章，希望大家可以喜欢；好了，今天接着之前的内容，来聊聊BlockManager的工作原理，上图来分析；

Spark内核分析之BlockManager工作原理介绍

        如题，我们来分析一下spark的shuffle操作原理；为什么说其非常重要，是因为shuffle操作是我们在Spark调优中非常重要的一环，对shuffle进行了优化，往往可以使得我们的spark程序运行效率有极大的提升。依照惯例，我们先来看一张图；

Spark内核分析之Shuffle操作流程（非常重要）

        接着上一篇，我们接着来分析下一个非常重要的组建DAGScheduler的运行原理是怎么实现的；通过之前对Spark的分析讲解，我们的Spark作业是在遇到一个action算子以后并以此为界限，划分出一个Job出来，也就是在这个时候，Spark作业向集群提交一个Job任务；下面我们看看源码是如何实现的；

Spark内核分析之DAGScheduler划分算法实现原理讲解（重要）

        接着上篇的Schedule调度内容，本篇我们来看看Driver，Application向Worker发送launch以后到底发生了什么。先来看看下面这张图；

Spark内核分析之Worker原理分析

        上一篇我们阐述了Driver，Application，Worker的注册实现原理，本篇我们来接着聊聊Driver，Application在注册之后是如何实现调度的。废话不多说，直接上源码进行分析（本篇所述内容比较重要，请耐心看完）。

Spark内核分析之Scheduler资源调度机制

        这篇文章我们来讨论一下Master的注册机制；那么有哪些信息需要注册到Master上面去呢？很简单，分别有Worker的注册，Driver的注册，Application的注册。明确了这个以后我们来看一张图；

Spark内核分析之Master的注册机制实现原理

        上一篇介绍了spark作业提交的三种方式，从本篇开始逐一介绍Spark作业运行流程中各个组件的内部工作原理。如标题所说，我们先来看看SparkContext在Spark作业提交后做了哪些事情，工作流程如下图所示；（注意：本篇文章及后续源码分析所有内容全部基于spark1.3.0源码进行分析，后续不再赘述）

Spark内核分析之SparkContext初始化源码分析

        Spark作业运行的集群环境有两种，分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用，而standalone也提供了一种集群高可用的方法，即通过配置可以实现双master机制，保证在一个master挂掉以后，另外一个master立即启用。spark的主备切换提供了两种模式，一种是基于文件系统的，另外一种是基于zookeeper的。下面我们来看看spark集群的master主备切换是怎么实现的，如下图所示；

Spark内核分析之Spark的HA源码分析

        最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。

Spark内核分析之spark作业的三种提交方式

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了简单聊聊Spark专栏，为你提供了简单聊聊Spark的相关文章，致力于帮助开发者快速成长与发展。

简单聊聊Spark

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐