开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark提交获取额外的容器

是指在使用Apache Spark进行任务提交时，可以获取额外的容器资源来支持任务的执行和运行。

Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。在使用Spark进行任务提交时，可以通过配置参数来获取额外的容器资源，以满足任务的需求。

获取额外的容器资源有以下几个优势：

提高任务的并发性：通过获取额外的容器资源，可以增加任务的并发执行能力，提高任务的处理效率和吞吐量。
提供更多的计算资源：额外的容器资源可以提供更多的计算资源，使得任务可以更快地完成计算任务，加快数据处理和分析的速度。
支持大规模数据处理：通过获取额外的容器资源，可以支持大规模数据处理，处理更大规模的数据集，满足大数据处理的需求。
提供更好的容错性：额外的容器资源可以提供更好的容错性，当某个容器出现故障时，可以自动迁移任务到其他容器上继续执行，保证任务的可靠性和稳定性。

额外的容器资源可以应用于各种场景，包括但不限于：

大规模数据处理和分析：通过获取额外的容器资源，可以支持大规模数据处理和分析，如数据清洗、数据挖掘、机器学习等。
实时数据处理：通过获取额外的容器资源，可以支持实时数据处理，如实时流式计算、实时数据分析等。
批量数据处理：通过获取额外的容器资源，可以支持批量数据处理，如批量数据导入、批量数据转换等。

腾讯云提供了一系列与Spark相关的产品和服务，包括云服务器、容器服务、云数据库等。您可以通过以下链接了解更多关于腾讯云的相关产品和服务：

腾讯云云服务器：https://cloud.tencent.com/product/cvm
腾讯云容器服务：https://cloud.tencent.com/product/ccs
腾讯云云数据库：https://cloud.tencent.com/product/cdb

请注意，以上答案仅供参考，具体的产品和服务选择应根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

一文带你了解K8S 容器编排（下）

初学者容易误以为容器的任务只在于部署行为－－将软件在容器中部署以提供持续的服务。但其实容器也同样大量的被应用于批处理程序的运行上。

01

一文带你了解K8S 容器编排（下）

初学者容易误以为容器的任务只在于部署行为－－将软件在容器中部署以提供持续的服务。但其实容器也同样大量的被应用于批处理程序的运行上。比如测试行为是典型的批处理任务范畴，它不提供持续稳定的服务，它只是一段特定的程序，而一但这段测试程序结束后就应该销毁一切，包括执行环境和所占用的资源，容器对比于传统的虚拟机的优势也在于除了容器更加的轻量级外，容器的创建和销毁都很方便，通过 K8S 的能力可以很方便的在需要时创建，结束时销毁回收资源以达到更好的资源利用率（就如上篇文章中介绍的 Jenkins 与 K8S 打通后的运作模式）。而现在准备的测试案例会更加特殊，它需要重复运行 N 次，因为本次执行的是稳定性测试（也有人叫它浸泡测试或者长期高压测试），这种测试类型的特殊之处就在于它的目的是验证被测系统在长期的高压下是否仍能够提供稳定的服务。所以它的测试方式是长期的（1 天，1 周甚至更长时间）不间断的运行自动化测试。而自动化测试的数量是有限的，它不可能持续的运行那么长时间，所以才需要重复运行。在不改造测试框架的前提下 K8S 能通过什么样的方式来帮助完成这个测试需求。首先看一段 K8S 提交任务的配置文件。

01

软件测试|K8S 容器编排

初学者容易误以为容器的任务只在于部署行为－－将软件在容器中部署以提供持续的服务。但其实容器也同样大量的被应用于批处理程序的运行上。比如测试行为是典型的批处理任务范畴，它不提供持续稳定的服务，它只是一段特定的程序，而一但这段测试程序结束后就应该销毁一切，包括执行环境和所占用的资源，容器对比于传统的虚拟机的优势也在于除了容器更加的轻量级外，容器的创建和销毁都很方便，通过 K8S 的能力可以很方便的在需要时创建，结束时销毁回收资源以达到更好的资源利用率（就如上篇文章中介绍的 Jenkins 与 K8S 打通后的运作模式）。而现在准备的测试案例会更加特殊，它需要重复运行 N 次，因为本次执行的是稳定性测试（也有人叫它浸泡测试或者长期高压测试），这种测试类型的特殊之处就在于它的目的是验证被测系统在长期的高压下是否仍能够提供稳定的服务。所以它的测试方式是长期的（1 天，1 周甚至更长时间）不间断的运行自动化测试。而自动化测试的数量是有限的，它不可能持续的运行那么长时间，所以才需要重复运行。在不改造测试框架的前提下 K8S 能通过什么样的方式来帮助完成这个测试需求。首先看一段 K8S 提交任务的配置文件。

01

Yarn模式下的监控界面介绍

有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点不同。

01

Spark on Yarn 架构解析

我们都知道yarn重构根本的思想，是将原有的JobTracker的两个主要功能资源管理器和任务调度监控分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。主要包含三个组件ResourceManager 、NodeManager和ApplicationMaster以及一个核心概念Container.

01

Spark on Kubernetes：Apache YuniKorn如何提供帮助

Apache Spark在一个平台上统一了批处理、实时处理、流分析、机器学习和交互式查询。尽管Apache Spark提供了许多功能来支持各种用例，但它为集群管理员带来了额外的复杂性和较高的维护成本。让我们看一下底层资源协调器的一些高级要求，以使Spark成为一个平台：

02

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.

02

传统大数据平台如何进行云原生化改造

作者 | 宋文欣以 Hadoop 为中心的大数据生态系统从 2006 年开源以来，一直是大部分公司构建大数据平台的选择，但这种传统选择随着人们的深入使用，出现的问题也越来越多，比如：数据开发迭代速度不够快、集群资源利用效率过低、新的开发工具集成非常复杂等。这些问题已经成为困扰企业数字化转型加速迭代和升级的主要障碍。而传统大数据平台通常是以 Hadoop 为中心的大数据生态技术。一个 Hadoop 集群包含 HDFS 分布式文件系统和以 Yarn 为调度系统的 MapReduce 计算框架。围绕 H

05

戳破 | hive on spark 调优点

微信交流群里有人问浪尖hive on spark如何调优，当时浪尖时间忙没时间回答，这里就给出一篇文章详细聊聊。强调一下资源设置调优，这个强经验性质的，这里给出的数值比例仅供参考。

03

docker 容器从入门到入魔

1. docker 是什么2. docker 解决什么问题1. 解决虚拟机资源消耗问题。2. 快速部署。3. 提供一次性的环境。4. 提供弹性的云服务。5. 组建微服务架构。3. docker 安装部署与使用1. 安装 docker 引擎2. 使用 docker1. 理解 docker 的架构2. docker 命令3. 卷的概念4. 自制镜像并发布4. docker 网络6. docker pipework7. docker 网络端口映射4. 总结

02

Spark基础

1.Spark 使用DAG 调度器、查询优化器和物理执行引擎，能够在批处理和流数据获得很高的性能。2.spark把运算的中间数据(shuffle阶段产生的数据)存放在内存，迭代计算效率更高，mapreduce的中间结果需要落地，保存到磁盘；3.Spark计算框架对内存的利用和运行的并行度比mapreduce高，Spark运行容器为executor，内部ThreadPool中线程运行一个Task，mapreduce在线程内部运行container，container容器分类为MapTask和ReduceTask。Spark程序运行并行度高；

02

Spark系列 - (4) Spark任务调度

Spark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。Driver在Spark作业时主要负责：

01

spark on mesos 两种运行模式

原文地址：http://blog.csdn.net/lsshlsw/article/details/47104913 Spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式，细粒度模式在spark2.0后开始弃用。细粒度模式优点 spark默认运行的就是细粒度模式，这种模式支持资源的抢占，spark和其他frameworks以非常细粒度的运行在同一个集群中，每个application可以根据任务运行的情况在运行过程中动态的获得更多或更少

04

Spark 与 DataFrame

在 Spark 中，除了 RDD 这种数据容器外，还有一种更容易操作的一个分布式数据容器 DateFrame，它更像传统关系型数据库的二维表，除了包括数据自身以外还包括数据的结构信息（Schema），这就可以利用类似 SQL 的语言来进行数据访问。

01

Kubernetes助力Spark大数据分析

Kubernetes 作为一个广受欢迎的开源容器协调系统，是Google于2014年酝酿的项目。从Google趋势上看到，Kubernetes自2014年以来热度一路飙升，短短几年时间就已超越了大数据分析领域的长老Hadoop。本公众号之前的文章（Kubernetes核心组件解析）也对Kubernetes的几个组件做了一些详细的剖析，本文就带领大家一起看看Kubernetes和Spark碰到一起会擦出什么样的火花。

01

Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN

本文介绍了 Apache Spark 的集群模式概述，包括集群管理、提交应用程序、监控等方面的内容。

05

在Hadoop YARN群集之上安装，配置和运行Spark

Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。Spark最初设计用于运行Scala应用程序，但也支持Java，Python和R.

03

Spark 查看某个正在执行的或已结束的任务中executor与driver日志

如果运行在 YARN 模式，可以在 ResourceManager 节点的 WEB UI 页面根据任务状态、用户名或者 applicationId Search 到应用。

04

Spark内核详解 (4) | Spark 部署模式

实际上，除了上述这些通用的集群管理器外，Spark 内部也提供了方便用户测试和学习的简单集群部署模式。由于在实际生产环境下使用的绝大多数的集群管理器是 Hadoop YARN，因此我们关注的重点是 Hadoop YARN 模式下的 Spark 集群部署。

03

Effective PySpark(PySpark 常见问题)

首先确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark

03

[平台建设] Spark任务的诊断调优

平台目前大多数任务都是Spark任务，用户在提交Spark作业的时候都要进行的一步动作就是配置spark executor 个数、每个executor 的core 个数以及 executor 的内存大小等，这项配置目前基本靠用户个人经验，在这个过程中，有的用户就会设置非常不合理，比如配置的内存非常大，实际上任务运行时所占用的内存极少. 基于此，希望能有工具来针对任务进行分析，帮助用户来监控和调优任务，并给出一些建议，使任务更加有效率，同时减少乱配资源影响其他用户任务运行的情况。

04

[1015]spark-submit提交任务及参数说明

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。

02

基于Hadoop集群的大规模分布式深度学习

前言在过去的十年里，Yahoo一直持续投资建设和扩展Apache Hadoop集群，到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的，我们在自己的服务器上开发了可扩展的机器学习算法，用于分类、排序和计算词向量。目前，Hadoop集群已成为Yahoo大规模机器学习的首选平台。深度学习（Deep Learning, DL）是雅虎很多产品的核心技术需求。在2015 RE.WORK深度学习峰会上，Yahoo Flickr团队（Simon Osinder

08

Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

在过去数年中，网易在大数据云原生领域进行了长足的探索。本文围绕如何基于 Apache Kyuubi & Celeborn 等开源技术，构建企业级 Spark on Kubernetes 云原生离线计算平台展开，包含技术选型、架构设计、经验教训、缺陷改进、降本增效等内容，深入剖析网易在该领域的探索成果。

04

Flink集成Iceberg在同程艺龙的实践

过去几年，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构，而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下，2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文将分享同程艺龙将 Flink 与 Iceberg 深度集成的落地经验和思考。

03

Spark 在Yarn上运行Spark应用程序

在 YARN 中，每个应用程序实例都有一个 ApplicationMaster 进程，该进程是为该应用程序启动的第一个容器。应用程序负责从 ResourceManager 上请求资源。一旦分配了资源，应用程序将指示 NodeManagers 启动容器。ApplicationMasters 消除了对活跃客户端的依赖：启动应用程序的进程可以终止，并且从在集群上由 YARN 管理的进程继续协作运行。

01

Zzreal的大数据笔记-SparkDay03

Spark的运行模式 📷 Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持，目前的实现包括相对稳定的Mesos模式，以及hadoop YARN模式。本地模式：常用于本地开发测试，本地还分别 local 和 local cluster （1）standal

09

Spark系列--OutputFormat 详解

定义了 spark 的输出规则的类。这也许会让你想到 Hadoop Mapreduce 的 OutputFormat，没错，其实他们是一个东西，嗯，完全一样。Spark 本身只是一个计算框架，其输入和输出都是依赖于 Hadoop 的 OutputFormat，但是因为 Spark 本身自带 Hadoop 相关 Jar 包，所以不需要我们额外考虑这些东西，下面我们以saveAsTextFile源码来验证我们的结论

01

Spark的调度系统

一，简介 Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可以理解为SparkContext内部调度。之所以会出现这种情况，主要是生产中可能会希望一个SparkContext作为服

08

第一天：spark基础

Hadoop 的概念可追溯到 2003，2004 Google2篇论文(老版三辆马车)，2011年发布1.0版本，2012年发布稳定版。Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。

03

深入浅出Spark（三）：Spark调度系统之“权力的游戏”

专题介绍：2009 年，Spark 诞生于加州大学伯克利分校的 AMP 实验室（the Algorithms, Machines and People lab），并于 2010 年开源。2013 年，Spark 捐献给阿帕奇软件基金会（Apache Software Foundation），并于 2014 年成为 Apache 顶级项目。如今，十年光景已过，Spark 成为了大大小小企业与研究机构的常用工具之一，依旧深受不少开发人员的喜爱。如果你是初入江湖且希望了解、学习 Spark 的“小虾米”，那么 InfoQ 与 FreeWheel 技术专家吴磊合作的专题系列文章——《深入浅出 Spark：原理详解与开发实践》一定适合你！本文系专题系列第三篇。

02

Python大数据之PySpark(四)SparkBase&Core

在哪个文件下面更改？spark-env.sh中增加YARN_CONF_DIR的配置目录

04

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

02

一看就懂！任务提交的资源判断在Taier中的实践

旨在降低ETL开发成本、提高大数据平台稳定性，大数据开发人员可以在 Taier 直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。

02

【万字长文】Spark最全知识点整理（内含脑图）

Spark有以下四种部署方式，分别是：Local，Standalone，Yarn，Mesos

01

从本地到云端：豆瓣如何使用 JuiceFS 实现统一的数据存储

豆瓣成立于 2005 年，是中国最早的社交网站之一。在 2009 到 2019 的十年间，豆瓣数据平台经历了几轮变迁，形成了 DPark + Mesos + MooseFS 的架构。

01

大数据平台是否更应该容器化?

作者颜卫，腾讯高级后台开发工程师，专注于Kubernetes大规模集群管理和资源调度，有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。

03

【Spark on K8S】Spark里的k8s client

目前在我们的应用下，会有这样的一种特殊的场景。比如说 Driver 创建在 A 集群，但是需要 Driver 将 Executor Pod 创建到 B 集群去。所以我们这里会有两个集群的 master url，分别是集群 A 和集群 B。那么创建任务的模式就是 spark-subtit 的 master url 指向集群 A，然后给 Driver 的 k8s client 设置其创建 Executor Pod 的 master url 指向 B，那么在现有 Spark 的参数下，能否直接通过 SparkConf 或者环境变量来实现这一点呢？我们看看源码。对于这样的需求，我们首先需要去了解 Spark 是如何跟 k8s 集群打交道的。Spark on K8S 在 submit 的时候默认是直接在 K8S Master 节点提交，通过 --master 或者 SparkConf 中的 spark.master 来指定。

02

基于云原生的大数据实时分析方案实践

徐蓓，腾讯云容器专家工程师，10年研发经验，7年云计算领域经验。负责腾讯云 TKE 大数据云原生、离在线混部、Serverless 架构与研发。 1 方案介绍大数据处理技术现今已广泛应用于各个行业，为业务解决海量存储和海量分析的需求。但数据量的爆发式增长，对数据处理能力提出了更大的挑战，同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语，这意味企业可将所有数据用于大数据实时分析，实现在数据接受同时即刻为企业生成分析报告，从而在第一时间作出市场判断与决策。典型的场景如电商大促和金

03

Flink集成iceberg在生产环境中的实践

目前我们的大数据系统里，主要承接的业务是部门内的一些业务日志数据的统计、分析等，比如网关日志数据，服务器监控数据，k8s容器的相关日志数据，app的打点日志等。主要的流任务是flink任务是消费kafka的数据，经过各种处理之后通过flink sql或者flink jar实时写入hive，由于业务对数据的实时性要求比较高，希望数据能尽快的展示出来，所以我们很多的flink任务的checkpoint设置为1分钟，而数据格式采用的是orc格式，所以不可避免的出现了一个在大数据处理领域非常常见但是很麻烦的问题，即hdfs小文件问题。

04

EMR入门学习之通过SparkSQL操作示例（七）

导语：Spark 为结构化数据处理引入了一个称为 Spark SQL 的编程模块。它提供了一个称为 DataFrame 的编程抽象，并且可以充当分布式 SQL 查询引擎。

03

Apache Hudi 0.11 版本重磅发布，新特性速览!

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

03

Spark on K8S 在有赞的实践

随着近几年业务快速发展与迭代，大数据的成本也水涨船高，如何优化成本，建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来，经历7年发展的有赞离线计算平台如何拥抱云原生，通过容器化改造、弹性伸缩、大数据组件的错峰混部，做到业务成倍增长的情况下成本负增长。

01

脑补|yarn能并行运行任务总数～

最近知识星球没动静主要原因是知识星球他们在做系统升级，我也很无奈，由此给球友带来的不安，深感抱歉。

01

YARN的两种运行模式

YARN是一种资源管理机制，可以基于这种资源管理机制运行多种计算框架，比如mapreduce和storm，任何框架与YARN的结合，都必须遵循YARN的开发模式，下图为YARN框架的基本原理。

04

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

Spark 动态资源分配(Dynamic Resource Allocation) 解析

所以便有了要开发一套针对Spark Streaming 动态资源调整的想法。我在文章最后一个章节给出了一个可能的设计方案。不过要做这件事情，首先我们需要了解现有的Spark 已经实现的 Dynamic Resource Allocation 机制，以及为什么它无法满足现有的需求。

03

大数据面试杀招——Spark高频考点，必知必会!

前面两篇文章分别为大家介绍了大数据面试杀招关于Hive 与 Hadoop 的内容，收到读者朋友们一致的好评和赞赏。嘿嘿，本篇文章我们就继续来研究，关于Spark的面试热点，又有哪些~

03

Spark的三种提交模式

Spark内核架构，其实就是第一种模式，standalone模式，基于Spark自己的Master-Worker集群。基于YARN的yarn-cluster模式基于YARN的yarn-client模式（如果要切换到第二种或者第三种模式，将我们提交的spark应用的spark-submit脚本，加上--master参数，设置为yarn-cluset或者yarn-client，默认就是standalone模式）

01

大数据平台是否更应该容器化?

作者颜卫，腾讯高级后台开发工程师，专注于Kubernetes大规模集群管理和资源调度，有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。大数据的发展历史大数据技术起源于Google在2004年前后发表的三篇论文，分布式文件系统GFS、分布式计算框架MapReduce和NoSQL数据库系统BigTable，俗称"三驾马车"。在论文发表后，Lucene开源项目的创始人Doug Cutting根据论文原理初步实现了类似GFS和MapReduce的功能。并在20

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭