带有过多可抢占节点的Google dataproc spark集群有时会挂起

Google Dataproc是一个托管的云计算服务，用于在Google Cloud上运行Apache Spark和Apache Hadoop等大数据处理框架。Dataproc提供了一个灵活且可扩展的环境，用于快速部署和管理大规模的Spark集群。

在Google Dataproc中，一个Spark集群可以由多个节点组成。节点可以分为主节点和工作节点。主节点负责协调集群中的任务和资源管理，而工作节点用于执行实际的计算任务。

当一个Spark集群中存在过多的可抢占节点时，可能会导致集群挂起。可抢占节点是指在资源紧张的情况下，其他优先级更高的任务可以抢占该节点的资源。如果集群中的可抢占节点过多，可能会导致资源不足，从而导致集群挂起。

为了避免这种情况，可以采取以下措施：

调整集群规模：增加工作节点的数量，以提供更多的计算资源，从而减少可抢占节点的比例。
调整任务优先级：将任务的优先级设置为较高，以减少其他任务对可抢占节点的竞争。
监控和调优资源使用：使用Dataproc提供的监控和调优工具，对集群的资源使用情况进行监控和优化，以确保资源的合理分配和利用。
使用预留节点：Dataproc还提供了预留节点的功能，可以为集群中的一部分节点预留资源，以确保这些节点不会被抢占。

总之，对于带有过多可抢占节点的Google Dataproc Spark集群挂起的问题，可以通过调整集群规模、任务优先级、监控和调优资源使用以及使用预留节点等方式来解决。

相关·内容

基于Apache Hudi在Google云平台构建数据湖

现在，由于我们正在 Google Cloud 上构建解决方案，因此最好的方法是使用 Google Cloud Dataproc[5]。...Dataproc 是 Google 的公共云产品 Google Cloud Platform 的一部分， Dataproc 帮助用户处理、转换和理解大量数据。...在 Google Dataproc 实例中，预装了 Spark 和所有必需的库。...结论可以通过多种方式构建数据湖。我试图展示如何使用 Debezium[6]、Kafka[7]、Hudi[8]、Spark[9] 和 Google Cloud 构建数据湖。...: https://spark.apache.org/ [5] Google Cloud Dataproc: https://cloud.google.com/dataproc [6] Debezium

1.8K1 0

锅总详解开源组织之ASF

Apache Spark：用于大数据处理的快速引擎。 Apache Cassandra：高可用性和可扩展的分布式数据库系统。组织结构成员：ASF由会员组成，这些会员选举董事会来管理基金会。...贡献方式 ASF欢迎全球开发者通过多种方式进行贡献，包括代码提交、文档编写、错误报告等。任何人都可以参与开源项目的发展。资金来源 ASF的运作资金主要来自于会员费、赞助和捐赠。...Apache Spark：Google Cloud提供了Dataproc，一个托管的Apache Spark和Hadoop服务。...Apache Hadoop：Google Cloud的Dataproc也支持Hadoop，用于处理大规模数据集。...例如，AWS的Amazon MSK、Google Cloud的Dataproc、Azure的HDInsight等，都是基于ASF项目的托管服务，用户需要为这些服务的使用支付费用。

861 0

快手超大规模集群调度优化实践

多线程并发调度可以提升调度性能，但没有解决调度过程中排序耗时过多问题，并且引入的多线程调度，会损害调度结果的公平性。...，目前单集群规模已达数万台，同时在调度策略方面，支持可插拔的调度架构，方便扩展新的调度策略。...，这样在队列层面保障有可预期的app slot。...针对这个场景开发了reserve抢占功能，用于抢占reserve节点上的低优先级的container，从而保障节点上有足够的空闲资源启动高优先级作业。...通过AM失败节点规避机制，避免调度到AM失败机器。 NM挂起（不调度新Task，介于RUNNING和LOST状态）机制，防止NM异常退出导致Task失败。

1.1K2 0

CDP PVC基础版的新功能

Spark直接读取从Spark授权外部文件写入改进的CBO和矢量化覆盖率 Ozone HDFS的10倍可扩展性支持十亿个对象和S3原生支持支持密集数据节点快速重启，易于维护 HBase HBase-Spark...Capacity Scheduler利用延迟调度来满足任务位置约束抢占允许优先级较高的应用程序抢占优先级较低的应用程序不同层次结构下的相同队列名称在队列之间移动应用程序 Yarn绝对模式支持这是...，.jpg等）上基于相关性的文本搜索 Impala 更适合Data Mart迁移用例（交互式，BI样式查询）能够查询大型集群中的大量数据（“大数据”）集群环境中的分布式查询，方便扩展与Kudu集成以获取快速数据...通过Kudu和Impala更新支持报告带有Kudu + Spark的实时和流式应用程序时间序列分析，事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验 Yarn 过渡到Capacity...Scheduler的工具新的Yarn队列管理器 Capacity Scheduler利用延迟调度来满足任务位置约束抢占允许优先级较高的应用程序抢占优先级较低的应用程序不同层次结构下的相同队列名称

8902 0

总结 | 尹立博：Python 全局解释器锁与并发 | AI 研习社第 59 期猿桌会

然而，GIL 的设计有时会显得笨拙低效，并对语言的并发性带来严重限制，但是此时由于内置库和第三方库已经对 GIL 形成了巨大的依赖，想改变 GIL 反而变得困难了。...我会先介绍一下全局解释器锁（GIL）)的概念和影响；接下来会借助几个案例分析来展示 Python 通过多进程、多线程和异步、分布式计算来达成并发的几种方式；最后会介绍一套分布式计算工具——Dask。...抢占式多任务：间歇性挂起活跃进程，交由 OS 重新调度 Python 2：每执行 100 个字节码，当前进程就会被挂起 Python 3.2+: 每隔 5 毫秒这种多任务方式不提高代码性能，但使得多个任务能在同一时间段内执行...Starlark：这种方案并非去掉 GIL，而是一门兼容部分 Python 语法，并发执行字节码的新语言。它目前用于 Google Bazel 编译系统，我个人认为这是一个非常有意思的未来趋势。...它是 Dask 在异构集群上的扩展。它的网络结构遵循客户 – 调度器 – 工作节点这样的形式，因此要求所有节点拥有相同的 Python 运行环境。

8262 0

Kaggle大神带你上榜单Top2%：点击预测大赛纪实（上）

用Google Cloud Dataproc（谷歌云数据处理）管理服务可以很容易地部署一个Spark集群。...我发现1个主进程和8个工作进程节点的“n1-highmem-4”型集群（大约相当于4核CPU和16GB内存）能够在一个小时左右的时间里处理所有的竞赛数据，其中包括合并大的表、变换特征以及存储向量。...Dataproc Spark集群利用谷歌云存储（Google Cloud Storage, GCS）作为分布式文件系统而非通常默认使用的HDFS。...完整的代码在Dataproc Spark集群中用8个工作节点能够在30秒内运行完。把训练数据 (click_trains.csv) 加载到一个Spark DataFrame内，并计算行数。...在下面的代码片段，你会看到这种分层抽样可以很简单的通过Spark SQL Dataframe实现（Spark集群是部署在Google Dataproc上面的）。

1.1K3 0

谷歌发布 Hive-BigQuery 开源连接器，加强跨平台数据集成能力

BigQuery 是谷歌云提供的无服务器数据仓库，支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性，这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。...Phalip 解释说：这个新的 Hive-BigQuery 连接器提供了一个额外的选项：你可以保留原来的 HiveQL 方言的查询，并继续在集群上使用 Hive 执行引擎运行这些查询，但让它们访问已迁移到...，用于读写 Cloud Storage 中的数据文件，而 Apache Spark SQL connector for BigQuery 则实现了 Spark SQL Data Source API，将...BigQuery 表读取到 Spark 的数据帧中，并将数据帧写回 BigQuery。...Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。

2812 0

Caelus—全场景在离线混部解决方案

混部领域的喜马拉雅山是Google Borg，其在2019年发布的论文Borg中，集群的cpu利用率通过混部技术达到50%。...基于上述因素，我们决定打造一个基于云原生的在线离线混部平台（Caelus），零入侵k8s，可移植，覆盖多场景，适用于大规模集群。 Caelus混部架构 Caelus在线离线混部架构设计如图3： ?...我们将预测、离线资源计算等功能集中到节点agent，这样带来的好处是agent不需要跟master过多交互，尤其大规模集群会带来性能问题，另外可以对在线作业资源徒增做出快速反应，还可以解决机器本地差异性问题...级别的内存回收，解决离线内存cache释放问题；3）磁盘IO控制，解决磁盘IO抢占问题；4）网络出入带宽控制，解决网络出入带宽抢占问题等。...这样的好处是离线作业可充分使用空闲资源，提高资源利用率。离线作业在节点拉起的时候，就自动在离线框架管控的目录（offline目录）下创建对应的目录。 ?

8.4K7 1

Volcano火山：容器与批量计算的碰撞

同时，由于子任务之间无需信息和同步，当其中某几个计算节点(workers)被驱逐后，虽然作业的执行时间可能会变长，但整个作业仍可以顺利完成；而当计算节点增加时，作业的执行时间一般都会缩短。...目前，Volcano可以同时支持 Spark、TensorFlow和MPI等多种类型的作业。...如果有足够的资源并行运行作业的所有任务，则该作业将正确执行；但是，在大多数情况下，尤其是在prem环境中，情况并非如此。在最坏的情况下，由于死锁，所有作业都挂起。...总体来讲，带有动作属性的功能，一般需要引入 action 插件；带有选择 (包括排序) 属性的功能，一般使用 plugin 插件。...、backfill、reserve 则通过 action 机制来实现：都带有动作属性，比如“作业A 抢占作业B”。

1.8K2 0

critical pod浅谈

除了在主机上运行的Kubernetes核心组件（如api-server, scheduler, controller-manager ）外，还有许多附加组件，由于各种原因，这些附加组件必须在常规群集节点...如果紧急附加组件被驱逐（手动或作为其他操作（如升级）的副作用）并变为挂起状态（例如，当该群集被高度利用且有其他挂起的Pod计划进入该群集时，该群集可能会停止正常工作）被驱逐的关键附加组件腾出的空间或节点上可用的资源量由于其他原因而发生了变化...将priorityClassName设置为 system-cluster-critical或 system-node-critical，后者是整个集群中最高的，这是自v1.10 +起可用的两个优先级名称...原理分析当资源节点的资源不足时，新的pod就会尝试抢占已有pod,kubelet源码中会根据一些列条件进行判断是否可以被抢占 https://github.com/kubernetes/kubernetes...pod,被抢占pod非关键pod,则抢占成功如果都设置的有Priority，则抢占者大于被抢占pod的优先级时，抢占成功这里可以看到，同为优先级为2000001000以上的关键pod,优先级的依旧可以被抢占

7692 0

2019年，Hadoop到底是怎么了？

历史回顾 Apache Hadoop 是提供“可靠的、可扩展的、分布式计算”的开源框架，它基于 Google 2003 年发布的白皮书 “MapReduce：针对大数据的简化数据处理”，在 2006...这些变化让组织可以改变 Hadoop 集群的运行方式，放弃在 YARN 上运行绝大部分批处理作业、分隔本地 ML 作业的传统方法，转而采用更现代化的基于容器的方法，利用 GPU 驱动的机器学习，并把云服务提供商集成到...这种方式可以进行更快的查询，同时仍可以让用户选择运行很多需要访问大量数据的作业，从而接近大型 RDMBS 集群如 Postgres 所能提供的功能。 ?...而且，Spark 框架从 Hadoop 剥离后，可以用在AWS EMR、Google Cloud Dataproc和 Azure HDInsights上，开发者可以直接把现有的 Spark 应用程序直接迁移到完全托管服务的云上...我们也可以将现有的 Hadoop 负载迁移到云，如 EMR 或 Dataproc，利用云的可扩展性和成本优势，来开发可在不同云服务上进行移植的软件。

1.9K1 0

GCP 上的人工智能实用指南：第一、二部分

Cloud Dataproc Cloud Dataproc 是一个完全托管的 Hadoop 和 Spark 集群，可以在几秒钟内旋转。...这里要注意的一件非常重要的事情是 Dataproc 集群使用抢占式实例。这可以为集群的定价创造奇迹。...对于 Dataproc 集群，可将抢占实例用作数据节点，因为通常将 Dataproc 集群用于计算目的，并且所有数据都将保存在 Cloud Storage 中。...因此，在这种情况下，即使抢占式实例发生故障，该作业也将转移到另一个节点，并且不会产生任何影响。 Cloud Dataproc 集群的定价随实例而异，但是具有非常有竞争力的定价。...将 Dataproc 视为完全托管的云 Hadoop 和 Spark 集群。

17K1 0

为什么我会被Kubernetes“洗脑”？

这些机器学习任务是在 Cloud Dataproc 中运行的，Cloud Dataproc 是一个运行 Apache Spark 的服务。...你可能在谷歌上有一个 GKE Kubernetes 集群来编排 BigQuery、Cloud PubSub 和 Google Cloud ML 之间的负载。...而且你可能会有一个 Amazon EKS 集群来编排 DynamoDB、 Amazon Aurora 和你的生产 NodeJS 应用之间的负载。云提供商并非可替换的商品。...分布式系统分发 Google BigQuery 等 AWS Redshift 服务十分流行，因为它们给了你强大、可扩展和多节点的工具，而且 API 还简单。...在多种工作负载频度下的的事件驱动粘合代码（例如，带有多种数据库消费者的事件溯源模型）。

1.4K9 0

为什么我会被 Kubernetes“洗脑”？

这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...你可能在谷歌上有一个GKE Kubernetes集群来编排BigQuery、Cloud PubSub和Google Cloud ML之间的负载，而且你可能会有一个Amazon EKS集群来编排DynamoDB...分布式系统分发 Google BigQuery 等 AWS Redshift服务十分流行，因为它们给了你强大、可扩展和多节点的工具，而且API还简单。...你可以销售Cloudera Hadoop，Databricks Spark和Confluent Kafka等分布式系统平台的企业版。...（例如，带有多种数据库消费者的事件溯源模型） ?

1.5K6 0

为什么我会被 Kubernetes “洗脑”？

这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...你可能在谷歌上有一个GKE Kubernetes集群来编排BigQuery、Cloud PubSub和Google Cloud ML之间的负载，而且你可能会有一个Amazon EKS集群来编排DynamoDB...分布式系统分发 Google BigQuery 等 AWS Redshift服务十分流行，因为它们给了你强大、可扩展和多节点的工具，而且API还简单。开发者经常选择这些受管服务，因为它们是如此好用。...你可以销售Cloudera Hadoop，Databricks Spark和Confluent Kafka等分布式系统平台的企业版。...（例如，带有多种数据库消费者的事件溯源模型）为了创建一个功能即服务（FaaS）平台，云提供商提供了一个名为调用者（invokers）的Docker容器集群。

8764 0

Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

，但是由于弹性或是抢占情况的发生，节点或是容器被抢占导致executor被kill是一种常态，现有的shuffle无法使计算做到serverless，在节点/容器被抢占时往往需要重新计算shuffle数据...在线集群通常只有少量的本地磁盘和大量的CPU core，因此其计算和IO是不平衡的，在这样的集群中根据算力去调度作业时非常容易将磁盘写满。...Google Dataflow Shuffle[3] Google Dataflow Shuffle是Google在Google Cloud上的Shuffle服务，针对云上的弹性易失环境，Google开发了一套...Firestorm 收益支撑云原生的部署模式 Firestorm目前在腾讯内部已经落地于近万个节点的在离线混布集群，每天支撑近5W的分布式计算作业，每天的Shuffle数据量接近2PB，任务失败率从原先的...改善Shuffle阶段的稳定性及性能基于TPC-DS 1TB数据量，我们对使用原生Spark Shuffle 和使用Firestorm进行了性能对比测试，测试环境如下: 3台服务器作为计算节点，80

3K3 0

什么是 Apache Spark？大数据分析平台如是说

非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...如果你追求一个有管理的解决方案，那么可以发现 Apache Spark 已作为 Amazon EMR、Google Cloud Dataproc, 和 Microsoft Azure HDInsight...，以及更加对企业友好的 Java 和 Scala ，Apache Spark 允许应用程序开发人员和数据科学家以可访问的方式利用其可扩展性和速度。...RDD 上的操作也可以跨群集分割，并以批处理并行方式执行，从而实现快速和可扩展的并行处理。...提供深度学习管道的工作正在进行中。 Spark GraphX Spark GraphX 提供了一系列用于处理图形结构的分布式算法，包括 Google 的 PageRank 实现。

1.3K6 0

Docker Swarm 已死，Kubernetes 永生

这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...你可能在谷歌上有一个GKE Kubernetes集群来编排BigQuery、Cloud PubSub和Google Cloud ML之间的负载，而且你可能会有一个Amazon EKS集群来编排DynamoDB...四、分布式系统分发 Google BigQuery 等 AWS Redshift服务十分流行，因为它们给了你强大、可扩展和多节点的工具，而且API还简单。...你可以销售Cloudera Hadoop，Databricks Spark和Confluent Kafka等分布式系统平台的企业版。...（例如，带有多种数据库消费者的事件溯源模型） ?

6.6K13 0

什么是 Apache Spark？大数据分析平台详解

1.5K6 0

助力降本增效，腾讯云大数据DLC推出智能洞察功能

问题根因定位：可以自助排查分析任务运行情况的诉求，如：定位 Spark 任务运行缓慢或失败的原因，如资源抢占，shuffle 异常，数据倾斜等情况，都有清晰的定位 DLC洞察实现原理数据湖计算 DLC...基于 Spark 内部 Metrics 数据，发布可观测和可洞察双维度的引擎洞察功能。...、大数据量的任务同时并发进行时，会导致不同租户、不同优先级的作业对资源抢占，致使任务资源分配不均。...任务结束后，可通过洞察详情方便找到与该任务并发运行的其他任务，如图可找到 27 个与其争抢资源的任务，第二个任务抢占了过多资源。解决建议： 1....洞察也提供了多维度分析任务的途径，例如按照数据扫描量，数据 shuffle 大小，cpu 总耗时等等指标排序后分析，方便快速定位头部大任务，可更充分评估和利用集群资源。

1621 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云