开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Apache Spark中，为什么设置"spark.task.cpus“是无用的？

在Apache Spark中，设置"spark.task.cpus"是无用的，因为Spark的任务调度器是基于线程而不是进程的。这意味着每个Spark任务都在一个独立的线程中执行，而不是在一个独立的进程中执行。因此，设置"spark.task.cpus"参数来指定任务使用的CPU核心数是没有意义的。

Spark的任务调度器会根据可用的CPU核心数和任务的并行度来动态分配任务。它会根据集群的资源情况自动决定每个任务使用的CPU核心数，以实现最佳的资源利用率和任务执行性能。

在Spark中，可以通过设置"spark.executor.cores"参数来控制每个Executor使用的CPU核心数。这个参数决定了每个Executor可以同时执行的任务数。如果需要更细粒度地控制任务的并行度，可以使用Spark的任务级别并行度控制机制，如RDD的"repartition"或"coalesce"操作。

总结起来，设置"spark.task.cpus"参数是无用的，因为Spark的任务调度器是基于线程而不是进程的，它会根据集群的资源情况和任务的并行度动态分配任务。如果需要控制任务的并行度，可以使用其他相关参数或Spark提供的并行度控制机制。

相关搜索:Apache Spark:为什么不能使用在全局对象中定义的广播变量 connectedStreams在Apache Flink中是如何工作的 Css是在jquery中设置的 DROPMALFORMED在apache spark中未返回正确的结果 reduceByKeyAndWindow在Spark streaming中是如何工作的？什么是Apache Spark (SQL)中的Catalyst Optimizer？图像处理在Apache Tika中是如何工作的在Apache Spark中的groupBy之后聚合Map中的所有列值在Apache Spark中解析/查询异构CSV数据的最佳方法？在Apache Spark中解析JSON时出现奇怪的错误

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。我们建议设置shuffle的并发度，配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少达到inputdatasize/500MB。 Off-heap（堆外）内存：Hudi写入parquet文件，需要使用一定的堆外内存，如果遇到此类故障，请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存：通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作，因此执行程序的内存应足以容纳此文件。另外，Hudi会缓存输入数据以便能够智能地放置数据，因此预留一些 spark.memory.storageFraction通常有助于提高性能。调整文件大小：设置 limitFileSize以平衡接收/写入延迟与文件数量，并平衡与文件数据相关的元数据开销。时间序列/日志数据：对于单条记录较大的数据库/ nosql变更日志，可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据，它往往更加庞大，每个分区的记录更多。在这种情况下，请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度，以加速目标索引查找时间，另外可考虑一个以事件时间为前缀的键，这将使用范围修剪并显着加快索引查找的速度。 GC调优：请确保遵循Spark调优指南中的垃圾收集调优技巧，以避免OutOfMemory错误。[必须]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下： -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误：如果出现OOM错误，则可尝试通过如下配置处理：spark.memory.fraction=0.2，spark.memory.storageFraction=0.2允许其溢出而不是OOM（速度变慢与间歇性崩溃相比）。以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

02

Spark3.0核心调优参数小总结

基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中，Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比，相应的执行内存比例为1 - spark.memory.st

02

图文详解 Spark 总体架构 [禅与计算机程序设计艺术]

本文对Spark总体架构进行描述，本文读者需要一定的Spark的基础知识，至少了解Spark的RDD和DAG。

01

如何安装Spark & TensorflowOnSpark

对的，你没看错，这是我的一条龙服务，我在入坑填坑无数之后终于成功搭建起了Spark和TensorflowOnSpark的运行环境，并成功运行了示例程序（大概就是手写识别的训练和识别吧）。

03

Hudi小文件问题处理和生产调优个人笔记

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

02

TaskScheduler详解及源码介绍

创建TaskScheduler的源代码为SparkContext.createTaskScheduler，如下所示。该方法会根据master的配置匹配部署模式，每种部署模式中都会创建两个类（TaskSchedulerImpl、SchedulerBackend）的实例，只是TaskSchedulerImpl都相同，SchedulerBackend不同。

03

Spark shuffle详细过程

有许多场景下，我们需要进行跨服务器的数据整合，比如两个表之间，通过Id进行join操作，你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。

02

Spark：Dynamic Resource Allocation【动态资源分配】

用户提交Spark应用到Yarn上时，可以通过spark-submit的num-executors参数显示地指定executor个数，随后，ApplicationMaster会为这些executor申请资源，每个executor作为一个Container在Yarn上运行。Spark调度器会把Task按照合适的策略分配到executor上执行。所有任务执行完后，executor被杀死，应用结束。在job运行的过程中，无论executor是否领取到任务，都会一直占有着资源不释放。很显然，这在任务量小且显示指定大量executor的情况下会很容易造成资源浪费。

04

[Spark源码剖析]Task的调度与执行源码剖析

一个Spark Application分为stage级别和task级别的调度，stage级别的调度已经用[DAGScheduler划分stage]和[DAGScheduler提交stage]两片文章进行源码层面的说明，本文将从源码层面剖析task是如何被调度和执行的。

02

Spark高效数据分析01、idea开发环境搭建

【settings.xml】这里使用的是阿里的镜像位置，默认库位置在【D:\maven\repository】

02

Spark2.4.0源码分析之WorldCount 任务调度器(七)

Spark2.4.0源码分析之WorldCount 任务调度器(七) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 时序图 https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/image/example/spark-sql-dataset/worldCount/worldCount.taskScheduler.jpg

02

Spark 3.0.0-SNAPSHOT Access Kerberized HDFS

Spark 2.2 on K8S 的 Fork 已经废弃近两年了，那时候的几个主力开发也全部转移到 Spark 2.3/2.4 以及即将发布的 3.0 的 on K8S 模块的开发了。

01

高性能sparkStreaming 实现

在讲解sparkStreaming优化方法之前先看几个sparkStreaming的监控指标：

04

深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

上一篇博文《深入理解Spark 2.1 Core （二）：DAG调度器的实现与源码分析》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks来提交任务。

03

学习笔记TF065: TensorFlowOnSpark

Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架，Kubernetes相当于Yam调度系统。TensorFlow

00

Spark的运行环境及远程开发环境的搭建

2009 RAD实验室，引入内存存储 2010 开源 2011 AMP实验室，Spark Streaming 2013 Apache顶级项目

03

Spark shuffle读操作

1. shuffle过程的数据是如何传输过来的，是按文件来传输，还是只传输该reduce对应在文件中的那部分数据？

02

一文搞懂Spark的Task调度器（TaskScheduler）[通俗易懂]

通过之前 DAGScheduler的介绍可以知道， DAGScheduler 将划分的一系列 Stage (每个Stage封装一个TaskSet) , 按照Stage的先后顺序依次提交给底层的TaskScheduler去执行。下面来分析TaskScheduler接收到DAGScheduler的Stage任务后，是如何管理Stage (TaskSet) 的生命周期的。

02

Spark源码系列（三）作业运行过程

作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入RDD，找到collect方法。 def collect(): Array[T] = { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*)

04

CentOS7下安装Mesos教程

Mesos是根据Linux内核相同原则而创建的，而不同点仅是在于抽象的层面。Mesos内核运行在每一个机器上，同时通过 API 为各种应用提供跨数据中心和云的资源管理调度能力（如：Hadoop、Spark、Kafka、Elastic Search）。

02

Java10 将可以优雅的整合 Docker

现在的Java在Docker中有什么问题？很多应用都运行于JVM，并运行在容器中，一些大型的数据服务都可以在容器中运行，例如 Apache Spark和 Kafka。随着JVM与容器结合得越来越紧

03

PySpark on HPC 续：批量处理的框架的工程实现

PySpark on HPC系列记录了我独自探索在HPC利用PySpark处理大数据业务数据的过程，由于这方面资料少或者搜索能力不足，没有找到需求匹配的框架，不得不手搓一个工具链，容我虚荣点，叫“框架”。框架的实现功能如下：

03

Spark源码系列之Standalone模式下Spark应用的整个启动过程

一，Standalone模式下的spark角色大家都知道在Standalone模式下，spark一共有以下五种角色： sparksubmit，master，Worker，Driver，Executor。具体这五种角色在我们提交应用的时候起到哪些作用呢，我们下面就来详细讲解 1，SparkSubmit 加载一个Spark应用程序的入口。这个类处理设置spark相关依赖的Classpath(足见其重要性)，同时屏蔽了不同集群管理器和不同部署模式的细节，为用户提供统一接口。 2，Master 主要功能：

07

数据本地性对 Spark 生产作业容错能力的负面影响

作者：Kent_Yao 链接：https://www.jianshu.com/p/72ffaa10220

02

Spark入门必读：核心概念介绍及常用RDD操作

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

06

利用Mesos构建多任务调度系统

背景公司内部的云平台为各个业务线提供了大量的实体机和虚拟机来运行业务的服务，经过统计发现，这些分配给业务的机器cpu, memory等资源利用并不充分; 如果能够充分利用这些机器上的空闲资源同时又能保证业务服务的正常运行，将会节省不少的机器资源; 选型一提到多任务运行和调度，大部分人可能首先都会想到Kubernetes(k8s) + Docker, 跑起来如清风拂面, 顺畅无比。然而我们的业务机器大部分为centos 6.2, linux kernel 2.6的环境,而docker的运行需要Linux

05

Spark入门必读：核心概念介绍及常用RDD操作

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

03

【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )

os.environ['PYSPARK_PYTHON'] 的值设置为你自己电脑上的 python.exe 绝对路径即可 , 不要按照我电脑上的 Python 解释器路径设置 ;

05

Spark Streaming 基本操作

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：

01

3.4 RDD的计算

3.4 RDD的计算 3.4.1 Ta s k简介原始的RDD经过一系列转换后，会在最后一个RDD上触发一个动作，这个动作会生成一个Job。在Job被划分为一批计算任务（Task）后，这批Task会被提交到集群上的计算节点去计算。计算节点执行计算逻辑的部分称为Executor。Executor在准备好Task的运行时环境后，会通过调用org.apache.spark.scheduler.Task#run来执行计算。Spark的Task分为两种： 1）org.apache.spark.scheduler.

大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程 + Spark 内存

上图展示了 2 个 RDD 进行 JOIN 操作，体现了 RDD 所具备的 5 个主要特性，如下所示： • 1）一组分区 • 2）计算每一个数据分片的函数 • 3）RDD 上的一组依赖 • 4）可选，对于键值对 RDD，有一个 Partitioner（通常是 HashPartitioner） • 5）可选，一组 Preferred location 信息（例如，HDFS 文件的 Block 所在 location 信息）有了上述特性，能够非常好地通过 RDD 来表达分布式数据集，并作为构建 DAG 图的基础：首先抽象一个分布式计算任务的逻辑表示，最终将任务在实际的物理计算环境中进行处理执行。

03

借助Spark Web UI排查Spark任务

一般比较关注YarnApplicationState 、Logs、ApplicationMaster。

02

Spark异常处理与调优（更新中～）

http://blog.csdn.net/u011239443/article/details/52127689

03

Deeplearning4j介绍

Deeplearning4j（DL4J）是第一个基于Java和Scala的具有商业化水平、完全开源和支持分布式的深度学习库。DL4J可以整合到Hadoop和Apache Spark里面并同时支持分布式GPUs和CPUs，它把AI带到了商业化环境中。

02

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制，默认true。

01

生产集群spark报错问题

shuffle write的分区数由上一阶段的RDD分区数控制，shuffle read的分区数则是由Spark提供的一些参数控制。

02

apache Ignite 安装和helloworld

https://github.com/lilihongjava/ignite_examples/tree/main/ignite-01

01

Apache Kylin的实践与优化

从2016年开始，美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎，但是随着业务的高速发展，在构建和查询层面都出现了效率问题。于是，技术团队从原理解读开始，然后对过程进行层层拆解，并制定了由点及面的实施路线。本文总结了一些经验和心得，希望能够帮助业界更多的技术团队提高数据的产出效率。

03

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

02

Spark Core源码精读计划16 | 通过ExecutorAllocationManager实现动态Executor分配

按照SparkContext初始化的顺序，接下来就轮到调度系统的三大金刚——SchedulerBackend、TaskScheduler、DAGScheduler——出场了。与它们相关的细节非常多，绝不是一两篇文章能够讲清楚的，所以我们之后讲到Spark作业执行时，再自然地回过头详细看它们。本篇来讲解SparkContext初始化的倒数第二个组件：Executor分配管理器，即ExecutorAllocationManager。前面已经讲过，ExecutorAllocationManager可以通过与集群管理器联系，根据当前的负载动态增加或删除Executor，是一个比较智能的机制。

01

深入浅出理解 Spark：环境部署与工作原理

一、Spark 概述 Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架，目前已成为 Apache 软件基金会的顶级开源项目。Spark 支持多种编程语言，包括 Java、Python、R 和 Scala，同时 Spark 也支持 Hadoop 的底层存储系统 HDFS，但 Spark 不依赖 Hadoop。 1.1 Spark 与 Hadoop Spark 基于 Hadoop MapReduce 算法实现的分布式计算，拥有 Hadoop MapReduc

01

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

可以发现在一个Spark Application中，包含多个Job，每个Job有多个Stage组成，每个Job执行按照DAG图进行的。

02

Spark高效数据分析03、Spack SQL

SparkSession 是 Spark 最新的 SQL 查询起始点，实质上是 SQLContext 和 HiveContext 的组合。

02

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

1.文档编写目的首先说明什么场景下适合使用CGroup，为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业，同样的资源参数，有时候处理很快，有时候处理很慢，出现作业的运行效率无法预估情况？当我们期望通过合理分配CPU的使用率，使应用预期性能的运行，排除其他因素的影响下，如应用中每分配一个Vcore，预估它能处理多少数据，就需要启用CGroup对CPU进行严格的使用率限制来实现。在混合工作负载的示例是运行 MapReduce 和 Storm-on-YARN 的集群。MapRed

03

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间，Michael还提到了将Kafka整合到Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版本中已发生了一些变化，比如HA策略：通过Spark Contributor、Spark布道者陈超我们了解到，在Spar

08

五万字 | Spark吐血整理，学习与面试收藏这篇就够了！

一、Spark 基础二、Spark Core 三、Spark SQL 四、Spark Streaming 五、Structured Streaming 六、Spark 两种核心 Shuffle 七、Spark 底层执行原理八、Spark 数据倾斜九、Spark 性能调优十、Spark 故障排除十一、Spark大厂面试真题

03

原 Spark Shuffle

Spark Shuffle 1、概述 Shuffle，翻译成中文就是洗牌。之所以需要Shuffle，还是因为具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算

05

RDD：创建的几种方式（scala和java）[通俗易懂]

每一个spark应用程序都包含一个驱动程序（driver program ），他会运行用户的main函数，并在集群上执行各种并行操作（parallel operations）

03

从Storm到Flink：大数据处理的开源系统及编程模型（文末福利）

基于流计算的基本模型，当前已有各式各样的分布式流处理系统被开发出来。本节将对当前开源分布式流处理系统中三个最典型的代表性的系统：Apache Storm，Spark Streaming，Apache Flink以及它们的编程模型进行详细介绍。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭