实战|一群人齐心协力解决了一个spark问题

麒思妙想

发布于 2020-07-10 13:15:48

5170

发布于 2020-07-10 13:15:48

文章被收录于专栏：麒思妙想

首先感谢 spark君细心的整理，下文是早些时候在群里关于一个SparkSQL条件下推问题的实录，由于刚刚发表了一篇文章（Flink SQL vs Spark SQL），正好对这块理解还是热乎的，所以我作为D君，我也混水摸了一下鱼。

在阅读正文之前，大家再看一眼这幅图，应该会对理解下文有所帮助。

----------------------------------华丽得分割线---------------------------

spark君前段时间组织了一波学习社区，没过几天竟然增加到了人数增加230多个人。

大家在社区里面是互利互助的关系，如果只索取不分享对社区其他小伙伴是不公平的，有很多人入群后，就深度潜水了，这样的话我可能认为这个社区对你没有什么价值，你对这个社区其他成员也没有价值，所以上周末一口气踢掉了60多个人，也全部从知识星球里面也移除了，现在我也懒得踢人了，进入社区也提了提门槛，想进入学习社区必须有平时有总结分享知识点的习惯，先发一篇自己整理的东西，就是平时解决了啥问题，一段话描述问题解决方案和思路，或者看到的什么知识点记录，或者之前收集的一些学习资料，面试资料，大数据或者AI相关的都行，不用很全很完整的东西，只要能看到你认真整理分享的态度就行。

还有另外一个问题就有些人总是习惯于无脑地甩报错截图，能问别人的绝不google，这种人我认为你是对别人时间的不尊重，在社区里面提问题要讲究提问题的艺术：

碰到问题的时候先去google，先尽自己最大能力解决问题，如果解决不了，提问题的时候，说清楚前因后果，详细的描述信息，不要让回答者感觉问题很模棱两可，加上问题的各种前提条件，自己尝试过哪些方案，想要达到什么目标，自己卡住的关键点，抓住重点，不要问太泛太大的问题，这种一般没法回答。

以上都是题外话，这两天有人在社区里面提了一个问题，我觉得可以给大家分享一下：

问题君：

我今天通过pyspark去读取kudu表的数据，然后做了一个filter（pt=20190301 and courier_mobile='xxxxxxx'），在filter的时候由于字段类型错误（本来是pt="123"，我错写成pt=123，pt是分区字段，string类型），导致了全表扫描，很久都没跑出来结果

上面这种提问题的方式spark 君觉得也还是ok的，最起码清晰描述出来了问题的基本情况

A君给的建议：

你是想看看你写的程序底层有没有做全表扫描么，可以看执行计划吧

提问君：

我对比下前后两次explain()有什么区别吧

然后过了一会给出了两种不同写法的执行计划

错误情况: