后台技术底层理解

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

通常为提高数据处理的效率，计算引擎要实现谓词的下推，而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。它指的是在元数据中都记录这数据文件中的每一列的最小值和最大值，通过查询中列上的谓词来决定当前的数据文件是否可能包含满足谓词的任何records，是否可以跳过读取当前数据文件。

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

刚刚结束的Data + AI summit上，Databricks宣布将Delta Lake全部开源。

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

Iceberg项目2017年由Netflix发起， 它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司，发起以Apache Iceberg为核心构建一种新型数据平台。

[LakeHouse] 数据湖之Iceberg一种开放的表格式

Spark 3.2为spark shuffle带来了重大的改变，其中新增了push-based shuffle机制。但其实在push-based shuffle 之前，业界也有人提出了remote shuffle service的实践，不过由于它们是依赖于外部组件实现的所以一直不被社区所接收。

[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析

 在讨论external shuffle service的具体实现之前，我们先来回顾下spark shuffle的大概过程。

[SPARK][CORE] 面试问题之什么是 external shuffle service？

 在Spark3.2中引入了领英设计的一种新的shuffle方案，今天我们先来了解下其大致的设计原理，之后会再分析其具体的代码实现。

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle

在Spark中shuffleWriter有三种实现，分别是bypassMergeSortShuffleWriter, UnsafeShuffleWriter和SortShuffleWriter。但是shuffleReader却只有一种实现BlockStoreShuffleReader 。

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 （下）

 Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWriter是类似的，但是其中维护和执行的数据结构是不一样的。

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）

 之前我们已经了解了shuffle writer的详细过程，那么生成文件后会发生什么呢？以及它们是如何被读取呢？读取是内存的操作吗？这些问题也随之产生，那么今天我们将先来了解了shuffle reader的细枝末节。

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 （上）

在说UnsafeShuffleWriter 前，需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）

SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件，或存在mapSide的聚合时只能选择SortShuffleWriter，它是支持最全面的兜底ShuffleWriter。

[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情

BypassMergeSortShuffleWriter 就如其名，旁支的sort-baesd Shuffle, 他是采用Hash-style实现的Sort based Shuffle。在map阶段records会按分区写入不同的文件， 一个分区一个文件。然后链接这些分区文件形成一个output文件，并生成其index。reducer通过IndexShuffleBlockResolver 查找消费输出文件的不同分区。

[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节

一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手，其来源于大数据中的元老级的组件Hadoop。

[SPARK][CORE] 面试问题 之 Spark Shuffle概述

通信是分布式程序的血液和神经，就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。

Spark netty RPC 通信原理

在spark分布式程序中，sparkConf 主要起着Spark程序进行资源配置，性能调优，功能开关，参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。

SparkConf 配置与传播

rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述。它可以通过稳定的存储器或者从其他RDD生成，它并不需要急着进行转换，只需要在特定的rdd进行一次性的数据的迭代流转。rdd记录着自己的依赖关系，以防在数据丢失时可以通过“血缘”关系再次生成数据。用户也可以自己选择在经常重用的rdd进行数据落地，放置丢失后重做。

Spark RDD 分布式弹性数据集

树的遍历顺序是依赖于 根 节点的位置，前序遍历的顺序为 根左右，中序遍历的顺序为 左根右，后序遍历的顺序为 左右根。除此以外还存在层次遍历。

算法：二叉树遍历类题目

Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架，通过流来模拟批，Spark属于批处理框架，通过批来模拟流。其分别属于Lambda架构和Dataflow架构。

Spark架构模式与Flink的对比

从源码可以看出saveAsHadoopFile的输入参数有path, key类型，value类型， 输出格式类型，hadoop配置，压缩类型。将输入的参数配置到JobConf中后，调用saveAsHadoopDataset。

Spark 存储行动算子源码解析

action算子都是直接调用sc.runJob(this, func _), 在调用时将func传给分区执行，并在调用后，在Driver端对数据在执行自定义的函数。

Spark 行动算子源码分析

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了后台技术底层理解专栏，为你提供了后台技术底层理解的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐