专栏首页容器计算Spark persist MEMORY_AND_DISK & DISK_ONLY

Spark persist MEMORY_AND_DISK & DISK_ONLY

文章目录

1 Overview

假设程序中需要对一个接近 3T 的模型文件进行 cache。

3T 的文件: hdfs://xxx:9000/xxx_graph

object Persona {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder
      .appName("模型 cache 测试")
      .getOrCreate()

    val actions = spark.sparkContext.textFile(args(0)).persist(StorageLevel.MEMORY_AND_DISK).setName("model")

    // 触发 cache,没有实际意义
    println(s"number of actions: ${actions.count()}")

    // 10 mins
    Thread.sleep(1000 * 60 * 10)
  }
}

测试思路,3T 的模型,如果要 cache 住,50G 的 Executor,至少需要 3T * 1024G/T / 50G * 2 = 125个左右。(乘以2是因为 Executor 的 JVM 默认大概会用 50% 的 Host 内存)。测试中使用20个。

代码如果使用 StorageLevel.MEMORY_AND_DISK,会有个问题,因为20个 Executor,纯内存肯定是不能 Cache 整个模型的,模型数据会 spill 到磁盘,同时 JVM 会处于经常性的 GC,这样这个操作肯定是非常耗时的。

如下图,560G 基本是可用于 Cache 的内存了,其余时间一直在刷盘。

所有 Executor 一直处于频繁的 GC。

Memory 撑爆,CPU 一直繁忙。

光是一个 Job 引发的 cache 模型,目测至少需要一个小时。

以下是调整了 cache 级别,改为 StorageLevel.DISK_ONLY。没有了 GC 消耗。

10分钟已经完成30%的 task 了。

2 Summary

针对大数据集,如果在 Memory 不足够的情况下(TB 级别的基本都很难有匹配的资源),可以让其直接落到磁盘,通过减少 GC Time 来改善程序的 Performance。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在 K8S 部署一个 Spark History Server - 篇3

    因为这个系列的主要是想讲怎么在 K8S 上运行 HS,所以篇3讲述的就是这个,假设你已经有一个 K8S 集群,一个 build 好的 image,本文只是将 H...

    runzhliu
  • Spark on Kubernetes 动态资源分配

    本文主要讲述了 Spark on Kubernetes 的发展过程和 Dynamic Resource Allocatoin(DRA) 这个重要特性,以及与之相...

    runzhliu
  • Spark 面试题系列-2

    RDD 采用记录更新的方式:记录所有更新点的成本很高。 所以,RDD只支持粗颗粒变换,即只记录单个块(分区 partition)上执行的单个操作,然后创建某个...

    runzhliu
  • 国庆节前端技术栈充实计划(8):我使用 AngularJS 和 ReactJS 的经验

    在过去的几年里,网站进化成了复杂的网页应用。曾经的互联网只涉及到简单的商业信息展现,而如今,看看 Facebook、Slack、Spotify 以及 Netfl...

    疯狂的技术宅
  • 内部分享-聊聊常用的线程模型

    Throwable
  • ML&DEV[16] | 算法工程师内功修炼

    所谓算法,所谓人工智能,很多媒体,或者是一些教程,甚至是现在的主流论文,很容易地会把大家的思路带入到各种深度学习(没错,机器学习都已经out那种)等之类所谓比较...

    石晓文
  • 癫痫发作分类ML算法

    癫痫是一种中枢神经系统疾病(CNS),在美国影响约1.2%(340万人),全球影响超过6500万。此外大约每26人中就有一人会在其一生中的某个时刻患上癫痫症。癫...

    代码医生工作室
  • 深度学习模型训练的一般方法(以DSSM为例)

    本文主要用于记录DSSM模型学习期间遇到的问题及分析、处理经验。先统领性地提出深度学习模型训练过程的一般思路和要点,再结合具体实例进行说明。全文问题和解决方案尽...

    机器学习AI算法工程
  • 机器人真空夹具改用人造肌肉?

    据外媒报道,在工厂中使用的机器人通常配备真空夹具,用于夹住平面物体。通常,这些夹具由压缩空气提供动力,但这具有一些缺点。然而,现在科学家已经开发出一种使用人造肌...

    机器人网
  • 学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

    机器之心

扫码关注云+社区

领取腾讯云代金券