开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

与3.0.2相比，spark 3.1.2中的哪些重大变化会导致在可用内存足够的情况下占用磁盘空间

在Spark 3.1.2中，与3.0.2相比，有以下重大变化可能导致在可用内存足够的情况下占用磁盘空间：

Arrow数据传输格式的引入：Spark 3.1.2引入了Arrow数据传输格式，它可以提高数据传输的效率和性能。然而，由于Arrow数据格式在内存中的表示形式与磁盘上的表示形式不同，因此在Spark 3.1.2中使用Arrow数据传输格式可能会导致更多的磁盘空间占用。
默认的shuffle管理器更改为SortShuffleManager：在Spark 3.1.2中，默认的shuffle管理器从HashShuffleManager更改为SortShuffleManager。SortShuffleManager在处理大规模数据时可以提供更好的性能，但它可能会导致更多的磁盘空间占用。
动态分区写入优化：Spark 3.1.2引入了动态分区写入优化，它可以在写入数据时自动推断分区的数量和分区列。这种优化可以提高写入性能，但可能会导致更多的磁盘空间占用。
新的数据源V2 API：Spark 3.1.2引入了新的数据源V2 API，它提供了更灵活和可扩展的数据源接口。然而，由于这是一个全新的API，使用它可能需要更多的磁盘空间来存储相关的元数据和配置信息。

需要注意的是，以上变化可能会导致在可用内存足够的情况下占用更多的磁盘空间，但具体的影响取决于数据量、数据处理操作和集群配置等因素。为了减少磁盘空间的占用，可以考虑调整Spark的配置参数，如调整shuffle分区数量、调整内存分配比例等。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark计算引擎：https://cloud.tencent.com/product/spark
腾讯云数据仓库TDSQL：https://cloud.tencent.com/product/tdsql
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云弹性MapReduce：https://cloud.tencent.com/product/emr

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark 性能优化指南(官网文档)

由于大多数Spark组件基于内存的特性，Spark程序可能会因为集群中的任何资源而导致出现瓶颈：CPU、网络带宽或内存。通常情况下，如果数据适合于放到内存中，那么瓶颈就是网络带宽，但有时，我们还是需要内存进行一些调优的，比如以序列化的形式保存RDDs，以便减少内存占用。

01

使用 Node Exporter 监控 Linux 主机(2)

前文我们介绍了如何使用 Node Exporter 监控 Linux 主机的 CPU 使用率，接下来我们来介绍如何监控 Linux 的磁盘空间、磁盘 IO、网络 IO 等方面。

02

值得一读的linux内存学习总结

a). 进程使用的物理内存： find /proc/ -maxdepth 1 -iname "[0-9]*" | xargs -I{} cat {}/smaps | grep Pss: | awk '{s+=$2}END{print s}' b). slab分配占用的内存，采用slab机制主要是解决申请时候浪费page的问题，这一部分的内存并不是application 所占用的，所以要单独列出来, 可以在meminfo 中查看到其占用空间以及可回收空间大小. c). pagetable在虚拟地址到物理地址的转换中发挥着关键的作用，所以也不属于application占用的内存，属于系统所用，所以也单独列出来. 其大小随着内存的变大而变大，可以在meminfo 中找到占用的大小. d). free的内存，这一部分内存是从system的角度看，依然是free的，也就是说这一部分内存还没有被system 进行接管. e). cache/buffer内存的大小，这一部分可以在meminfo 中找到，这里主要是 application 的所使用的cache/buffer. f). 其他原因导致的内存gap, 在下面的示例中，上述所述的6种内存的总和大于实际的总内存，这是因为 shmem 是被application使用的，所以在计算进程使用的物理内存的时候，已经包含了shmem,而cache又计算了一次，因此最后的结果应该是减去SHMEM, 这样和总内存相比，还有5497KB的gap .那么这个gap 到底应该是available的，还是算作used的，不得而知，那么因为这个gap 不大，所以对于内存的使用状况统计，我们可以暂且忽略该gap，所以我们可以有如下的公式作为一个参考： total = free + cache + buffer + process_used_via_pss + slab + pagetables - shmem

03

Spark系列 - (6) Spark 内存管理

在执行Spark的应用程序时，Spark集群会启动Driver和Executor两种JVM线程，前者为主控进程，负责创建Spark上下文，提交Spark作业（Job），并将作业转化为计算任务（Task），在各个Executor进程间协调任务的调度，后者负责在工作节点上执行具体的计算任务，并将结果返回给Driver，同时为需要持久化的RDD提供存储功能。由于Driver的内存管理相对来说较为简单，本文主要对Executor的内存的管理进行分析，上下文中的Spark内存均特指Executor的内存。

03

开发应该知道的Linux系统分析-内存篇

用free监控内存free是监控linux内存使用状况最常用的指令，看下面的一个输出

02

Spark内存调优

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

03

Spark内部原理之内存管理

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

05

Apache Spark 内存管理(堆内/堆外)详解

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

02

Apache Spark 内存管理(堆内/堆外)详解

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

02

如何增加Ubuntu上的Swap大小？

Swap是Linux系统中的一种虚拟内存，用于在物理内存不足时扩展可用内存。当系统的物理内存不足以满足所有运行进程的需求时，操作系统会将不常用的数据存储在Swap分区中。在某些情况下，可能需要增加Ubuntu系统上的Swap大小，以提供更多的可用内存。本文将详细介绍如何在Ubuntu上增加Swap大小。

00

如何增加Ubuntu上的Swap大小？

Swap是Linux系统中的一种虚拟内存，用于在物理内存不足时扩展可用内存。当系统的物理内存不足以满足所有运行进程的需求时，操作系统会将不常用的数据存储在Swap分区中。在某些情况下，可能需要增加Ubuntu系统上的Swap大小，以提供更多的可用内存。本文将详细介绍如何在Ubuntu上增加Swap大小。

05

Spark内存管理详解（好文收藏）

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

02

Linux - Linux内存管理

内存管理是Linux系统重要的组成部分。为了解决内存紧缺的问题，Linux引入了虚拟内存的概念。为了解决快速存取，引入了缓存机制、交换机制等。

04

Spark Core源码精读计划25 | UnifiedMemoryManager——统一内存管理机制

在前文的末尾，我们分析了静态内存管理器StaticMemoryManager的优缺点，并指出统一内存管理器UnifiedMemoryManager能够弥补它的缺点，同时也是目前Spark内存管理的事实标准。本文尽可能深入地剖析UnifiedMemoryManager的具体实现。

03

Pyspark学习笔记（四）弹性分布式数据集 RDD（下）

本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量，以达到节约资源、计算量、时间等目的

03

Electron / Chromium 屏幕录制 - 那些我踩过的坑

Web 屏幕录制也许对我们来说并不陌生，最常见的场景，例如：各种视频会议、远程桌面软件，远程会议软件的出现大大方便了人们的交流与沟通，在 WFH 期间对众多企业的线上运转起到关键的作用。除了屏幕的实时分享，录屏的应用还存在另一种应用场景，即“记录实时操作并保留现场，方便后续追溯与回放”，即是我们业务的主要场景。对于我们的业务，强依赖该功能的稳定性。以下是我们业务对该功能的一些硬性指标：

04

什么是并发、高并发以及实现高并发需要考虑的因素

说到并发，期英文单词为Conurrent,如果要彻底理解并发，那么还需知道一个词就是并行，英文单词Parallel。那么二者有什么关系呢？Erlang 之父 Joe Armstrong用如下图来解释了并发与并行的区别：

01

【搜索引擎】提高 Solr 性能

在过去的 10 个月里，我很高兴与个性化和相关性团队合作。我们负责根据排名和机器学习向用户提供“个性化和相关的内容”。我们通过一组提供三个公共端点的微服务来做到这一点，即 Home Feed、Search 和 Related items API。我记得加入团队几个月后，下一个挑战是能够为更大的关键国家提供优质服务。目标是保持我们在较小国家/地区已经拥有的完美性能和稳定性。

01

Pyspark学习笔记（四）弹性分布式数据集 RDD 综述（下）

本篇主要讲述了如何在执行pyspark任务时候缓存或者共享变量，以达到节约资源、计算量、时间等目的

04

Zabbix常用监控项整理

最近整理了一份常用Zabbix监控项说明，主要包括常见Windows & Linux监控，如下：

02

性能测试中关注的指标

关键业务的考核指标，重点关注业务价值评价的标准指标，电商类的下单量、支付量等，股票交易类关注买入、卖出以及账户中资金和持有股票的资金的关系等指标。这部分最好是和团队内BA一起确定，建立一套基于业务价值的监控指标。

01

腾讯大数据之TDW计算引擎解析——Shuffle

腾讯分布式数据仓库（Tencent distributed Data Warehouse, 简称TDW）基于开源软件Hadoop和Hive进行构建，并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造，目前单集群最大规模达到5600台，每日作业数达到100多万，已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求，TDW也在向实时化方向发展，为用户提供更加高效、稳定、丰富的服务。 TDW计算引擎包括两部分：一个是偏离线的MapReduce，一个是偏实时的Spark，两者内部都包含了一个

08

硬卷消息中间件系列（十六）：RabbitMQ 运维监控

前面介绍了 RabbitMQ 流控、镜像队列、网络分区、多机集群部署、高可用集群部署、集群运维管理、Java 调用的三种方式等相关的知识点，今天我将详细的为大家介绍 RabbitMQ 监控相关知识，希望大家能够从中收获多多！如有帮助，请点在看、转发支持一波！！！

03

MongoDB 如何使用内存？为什么内存满了？

Mongod 进程启动后，除了跟普通进程一样，加载 binary、依赖的各种library 到内存，其作为一个DBMS，还需要负责客户端连接管理，请求处理，数据库元数据、存储引擎等很多工作，这些工作都涉及内存的分配与释放，默认情况下，MongoDB 使用 Google tcmalloc 作为内存分配器，内存占用的大头主要是「存储引擎」与「客户端连接及请求的处理」。

04

3个性能监控和优化命令讲解

整理出了三个有关性能监控和优化命令详细讲解，文章很长，涉及top命令、free命令和vmstat命令，真的是很详细的讲解，希望能帮到大家

03

MongoDB 如何使用内存？为什么内存满了？

Mongod 进程启动后，除了跟普通进程一样，加载 binary、依赖的各种library 到内存，其作为一个DBMS，还需要负责客户端连接管理，请求处理，数据库元数据、存储引擎等很多工作，这些工作都涉及内存的分配与释放，默认情况下，MongoDB 使用 Google tcmalloc 作为内存分配器，内存占用的大头主要是「存储引擎」与「客户端连接及请求的处理」。

02

我们在学习Spark的时候，到底在学习什么？

Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，基本可以吊打其他的大数据处理框架。

04

Linux vmstat命令详解

vmstat是Virtual Meomory Statistics（虚拟内存统计）的缩写，可对操作系统的虚拟内存、进程、CPU活动进行监控。是对系统的整体情况进行统计，不足之处是无法对某个进程进行深入分析。

05

嵌入式linux综合性能评估

干货福利，第一时间送达！在嵌入式项目预研前期阶段，我们常常需要对某个平台进行资源和性能方面的评估，以下是最常见的一些评估指标：

02

一次线上JVM GC 长暂停排查，加班搞了好久

在高并发下，Java程序的GC问题属于很典型的一类问题，带来的影响往往会被进一步放大。不管是「GC频率过快」还是「GC耗时太长」，由于GC期间都存在Stop The World问题，因此很容易导致服务超时，引发性能问题。

02

如何在 Ubuntu 20.04 上添加交换空间？

交换空间（Swap Space）是一种在计算机系统中用于暂存内存中未使用的数据的特殊磁盘空间。当物理内存（RAM）不足时，交换空间可以作为辅助内存使用，帮助系统处理内存压力。在某些情况下，添加额外的交换空间可以提高系统的性能和稳定性。本文将详细介绍如何在 Ubuntu 20.04 上添加交换空间。

00

大数据处理框架是怎样的原理

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。组件之间的这种互操作性是大数据系统灵活性如此之高的原因之一。虽然负责处理生命周期内这一阶段数据的系

07

【源码剖析】- Spark 新旧内存管理方案（下）

上一篇文章【源码剖析】- Spark 新旧内存管理方案（上）介绍了旧的内存管理方案以及其实现类 StaticMemoryManager 是如何工作的，本文将通过介绍 UnifiedMemoryManager 来介绍新内存管理方案（以下统称为新方案）。

02

我们在学习Spark的时候，到底在学习什么？

Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，基本可以吊打其他的大数据处理框架。

04

spark调优系列之内存和GC调优

本文基于spark1.6讲解。一，基本概述调优内存的使用主要有三个方面的考虑：对象的内存占用量(你可能希望整个数据集都适合内存)，访问这些数据的开销，垃圾回收的负载。默认情况下，java的对象是可以快速访问的，但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因： 1),每个不同的Java对象都有一个“对象头”，它大约是16个字节，包含一个指向它的类的指针。对于一个数据很少的对象（比如一个Int字段），这可以比数据大。 2),Java字符串在原始字符串数据上具有大约40字节的开销（因

CleanMyMac X4.11最新MAC苹果系统清理工具

CleanMyMac X/4一键智能清理系统垃圾，提升您的Mac运行速度，深度清理内存和保护隐私，检测并删除恶意软件和并读。

00

CleanMyMac更新最新版本V4.12.5功能使用教程

CleanMyMac更新最新版本x4.12，完美适配新版系统macOS10.14，拥有全新的界面。CleanMyMac可以让您安全、智能地扫描和清理整个系统，删除大型未使用的文件，减少iPod库的大小，最精确的应用程序卸载，卸载不必要的应用程序或修复不能正常工作的程序，管理所有的扩展和做更多的事情-所有从一个新设计和美丽简单的界面。

04

面试官：生产服务器变慢了，你能谈谈诊断思路吗？

生产服务器变慢了，一般都是从这几点去分析：服务器整体情况， CPU 使用情况，内存，磁盘，磁盘 IO ，网络 IO

02

从一个sql任务理解spark内存模型

之前是只知道内存模型理论上是怎么样的，这次拿到一个具体的任务，具体的executor来做对照分析，加深理解，在调内存参数时，也能有个依据。

02

不会这20个Spark热门技术点，你敢出去面试大数据吗?

关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客，博主为大家分享20个Spark热门技术点，希望今年出去面试，实习的同学，尤其是想去大厂的同学，一定要把下面的20个技术点看完。

02

操作系统核心原理-5.内存管理（上）：基本内存管理

操作系统的两个角色分别是魔术师和管理者，在管理者这个角色中，除了CPU之外，内存是操作系统要管理的另外一个重要资源。内存管理需要达到两个目标：一是地址保护，即一个程序不能访问另一个程序的地址空间。二是地址独立，即程序发出的地址应该与物理主存地址无关。这两个目标就是衡量一个内存管理系统是否完善的标准，它是所有内存管理系统必须提供的基本抽象。

02

排查线上问题必备的 6 个 Linux 命令！

top - 18:14:58 up 112 days, 1:35, 1 user, load average: 0.00, 0.10, 0.11

04

Uber为什么放弃Postgres选择迁移到MySQL？

Uber 的早期架构包含了一个用 Python 开发的单体后端应用程序，这个应用程序使用 Postgres 作为数据存储。从那个时候开始，Uber 的架构已经发生了巨大变化，变成了微服务，并采用新的数据平台模型。具体地说，之前使用 Postgres 的地方，现在改用 Schemaless，一种构建在 MySQL 之上的新型数据库分片层。在本文中，我们将探讨 Postgres 的一些缺点，并解释为什么我们要在 MySQL 之上构建 Schemaless 和其他后端服务。

01

【Spark重点难点】你的代码跑起来谁说了算？(内存管理)

这节课我们要讲的是Spark中的【内存模型】，也就是决定我们Spark代码运行所需要的资源信息。

02

运行时间越长，Linux系统可用内存越小的问题分析

问题：系统运行时间越长，会出现偶发重启的现象，通过查看系统可用内存，发现非常少，几乎内存被用光了。

01

集群熔断和健康值非绿场景分析排查

原理：Elasticsearch的请求的数据超过JVM堆内存设置，引发的集群异常。

01

Linux服务器性能评估与优化(二)--内存

之前文章《Linux服务器性能评估与优化(一)》太长，阅读不方便，因此拆分成系列博文：

01

从一个sql任务理解spark内存模型

上一篇在内存模型理解部分描述不当，以下是我重新整理后的，有需要的可以琢磨琢磨，不管是日常任务调优，还是面试总会起点作用吧：

02

常见问题: MongoDB 存储

存储引擎是数据库的一部分，负责管理如何在内存和磁盘上存储数据。许多数据库支持多个存储引擎，其中不同的引擎对特定工作负载的性能会更好。例如，一个存储引擎可能为读取繁重的工作负载提供更好的性能，另一个可能支持更高的写入操作吞吐量。

03

【Spark篇】---Spark调优之代码调优，数据本地化调优，内存调优，SparkShuffle调优，Executor的堆外内存调优

Spark中调优大致分为以下几种，代码调优，数据本地化，内存调优，SparkShuffle调优，调节Executor的堆外内存。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭