前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >优化spark sql读取 kudu数据

优化spark sql读取 kudu数据

作者头像
shengjk1
发布2020-05-12 10:55:31
2K0
发布2020-05-12 10:55:31
举报
文章被收录于专栏:码字搬砖码字搬砖

1.背景

通过 spark sql 读取 kudu 数据,由于 kudu 表 只有 6 个 tablet ,所以 spark 默认只能启动 6 个 task,读取 kudu 数据,通过界面可以看到 kudu 的 scan 维持在 143M/s ,想要增大 spark 读取 kudu 的效率。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png)

2.修改

通过追踪 kudu-spark.jar 的源码知道

在这里插入图片描述
在这里插入图片描述

kudu.batchSize: 默认为 20M batchSize Sets the maximum number of bytes returned by the scanner, on each batch. splitSizeBytes sets the target number of bytes per spark task. If set, tablet’s primary key range will be split to generate uniform task sizes instead of the default of 1 task per tablet

调参为:

代码语言:javascript
复制
val sqlDF = spark.sqlContext.read.options(
          Map("kudu.master" -> kuduMasters,
            "kudu.table" -> kuduTableName,
            //200M
            "kudu.batchSize" -> "419430400",
            //10G
            "kudu.splitSizeBytes" -> "10737418240")).format("kudu").load.cache()

3.最终的结果

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-05-11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.背景
  • 2.修改
  • 3.最终的结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档