首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

sparksql调优之第一弹

1,jvm调优 这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。 spark调优系列之内存和GC调优 2,内存调优 缓存表 spark2....+采用: 采用 sqlContext.cacheTable("tableName")缓存,sqlContext.uncacheTable("tableName") 解除缓存 Sparksql仅仅会缓存必要的列...属性 默认值 介绍 spark.sql.inMemoryColumnarStorage.compressed true 假如设置为true,SparkSql会根据统计信息自动的为每个列选择压缩方式进行压缩...7,sql调优 听天由命吧。 关于调优多说一句: 对于Spark任务的调优,要深入了解的就是数据在整个spark计算链条中,在每个分区的分布情况。...有了这点的了解,我们就会知道数据是否倾斜,在哪倾斜,然后在针对倾斜进行调优。 分区数该增大增大,该减少减少。 内存要尽可能大。 表别动不动就缓存,有时候重新加载比缓存速度都快。

3K80
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Spark 性能调优之开发调优

    Spark的性能调优实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。...整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。...开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对...Spark的原理有较深层次掌握和研究的同学,主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优。...本文作为Spark性能优化指南的基础篇,主要讲解开发调优。 2. 开发调优 2.1 调优概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。

    97231

    Spark 性能调优之Shuffle调优

    因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。...但是也必须提醒大家的是,影响一个 Spark 作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle 调优只能在整个 Spark 的性能调优中占到一小部分而已。...因此大家务必把握住调优的基本原则,千万不要舍本逐末。下面我们就给大家详细讲解 shuffle 的原理,以及相关参数的说明,同时给出各个参数的调优建议。 2....5. shuffle相关参数调优 以下是Shffule过程中的一些主要参数,这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。...调优建议:在资源参数调优中讲解过这个参数。如果内存充足,而且很少使用持久化操作,建议调高这个比例,给 shuffle read 的聚合操作更多内存,以避免由于内存不足导致聚合过程中频繁读写磁盘。

    1.3K30

    Spark 性能调优之资源调优

    整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。...开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对...本文作为Spark性能优化指南的基础篇,主要讲解资源调优。 2. 资源调优 2.1 调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。...理解作业基本原理,是我们进行资源参数调优的基本前提。 2.3 资源参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。...参数调优建议:Executor的CPU core数量设置为2-4个较为合适。

    1.7K30

    Spark性能调优06-JVM调优

    Spark 调优和 JVM 调优的关系 再JVM虚拟机中,当创建的对象的数量很多时,Eden 和 Survior1 区域会很快的满溢,就需要进行频繁地 Minor GC,这样会导致有一些生命周期较短的对象迅速长到...Spark的JVM调优 spark.storage.memoryFraction 参数说明: 该参数用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6。...根据你选择的不同的持久化策略,如果内存不够时,可能数据就不会持久化,或者数据会写入磁盘 参数调优建议: 如果Spark作业中,有较多的RDD持久化操作,该参数的值可以适当提高一些,保证持久化的数据能够容纳在内存中...此外,如果发现作业由于频繁的gc导致运行缓慢,意味着task执行用户代码的内存不够用,那么同样建议调低这个参数的值 资源参数的调优,没有一个固定的值,需要根据自己的实际情况(包括Spark作业中的shuffle...操作数量、RDD持久化操作数量以及spark web ui中显示的作业gc情况)来灵活的调优 4.

    1.4K10

    JVM 调优之 Eclipse 启动调优实战

    本文是我12年在学习《深入理解Java虚拟机:JVM高级特性与最佳实践》时,做的一个 JVM 简单调优实战笔记,版本都有些过时,不过调优思路和过程还是可以分享给大家参考的。...Client VM (build 17.1-b03, mixed mode, sharing) Eclipse版本: Release 4.2.0 Last revised June 8th, 2012 调优前...分析及调优 升级JDK版本 获取免费的“性能提升”(这里暂时不做考虑)。 类加载和编译时间优化 类加载: 字节码验证优化。...1.5 -Dhelp.lucene.tokenizer=standard -Xverify:none -Xms512m -Xmx512m -Xmn170m -XX:PermSize=256m 第二次 调优后运行结果...总结 以上只是专门针对 Eclipse 的启动过程进行分析和调优,并未对 Eclipse 日常开发工作进行分析和调优。 参考资料 《深入理解Java虚拟机:JVM高级特性与最佳实践》

    58410

    Linux 性能调优之虚拟化调优

    写在前面 考试整理相关笔记 博文内容涉及Linux VM 常见管理操作以及部分调优配置 理解不足小伙伴帮忙指正 不必太纠结于当下,也不必太忧虑未来,当你经历过一些事情的时候,眼前的风景已经和从前不一样了...——村上春树 使用工具进行调优 可以直接使用 tuned 包里面的适用于虚拟化调优的参数,tuned 中对于虚拟化通过两个优化配置,一个适用虚拟机,一个适用虚拟机所在的宿主机。...┌──[root@liruilongs.github.io]-[~] └─$ 可以通过/sys/kerel/mm/ksm/目录下的参数,设置调优参数: ┌──[root@liruilongs.github.io...liruilongs.github.io]-[~] └─$cat /sys/kernel/mm/ksm/sleep_millisecs 30 ┌──[root@liruilongs.github.io]-[~] └─$ 虚拟磁盘配置调优...xml | grep driver 虚拟机磁盘 IO 调优

    29110

    jvm 调优命令_java jvm调优工具

    3类 **性能参数(Performance Options):**用于JVM的性能调优和内存分配控制,如初始化内存大小的设置; **行为参数(Behavioral Options):**用于改变JVM的基础行为...线上环境 web容器:Tomcat, startup.sh -> catalina.sh(卡特琳娜) 里设置JVM 参数 jsp + jinfo 查看某个java进程的参数,然后再调整设置 真实调优...tomcat/xxx/xx/heap.hprof 在排查的的时候 jmap -dump:format=b,file=heap.hprof 44808 一般dump下来的文件可以结合工具来分析 4调优常用工具...:k] Suspects [səˈspekts] 查找并分析内存泄漏的可能原因 Reports—>Leak Suspects—>Details Top Consumers 列出大对象 5调优实战分析...5.2程序监控调优 前提:java 应用程序必然是正常运行的。. 目的:减少GC 频率,减少Full GC 发现现象才去解决?

    98331

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券