首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    spark-submit 参数设置

    在使用spark时,根据集群资源情况和任务数据量等,合理设置参数,包括但不限于以下: 参数说明masteryarn  E-MapReduce 使用 Yarn 的模式yarn-client:等同于 –-master...要注意的是,如果设置这个参数,那么需要同时指定上面 master 为 yarn。cluster 模式表示 AM 会随机的在 worker 节点中的任意一台上启动运行。...要注意的是,如果设置这个参数,那么需要同时指定上面 master 为yarn。...这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能,Spark官网建议的设置原则是,设置该参数为num-executors * executor-cores的2~3倍较为合适spark.storage.memoryFraction...   该参数用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6。

    71750

    Spark-submit 参数调优完整攻略

    --sparksubmit --num-executors 该参数主要用于设置该应用总共需要多少executors来执行,Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor...--conf spark.storage.memoryFraction 参数说明:该参数用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6。...个人不太建议调该参数 --conf spark.shuffle.memoryFraction 参数说明:该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后,进行聚合操作时能够使用的...--conf spark.shuffle.consolidateFiles 默认值:false 参数说明:如果使用HashShuffleManager,该参数有效。...--conf spark.shuffle.manager 默认值:sort|hash 参数说明:该参数用于设置ShuffleManager的类型。

    3.1K20
    领券