我正在尝试用以前的非空值(如果存在)填充我的Spark dataframe中缺少的值。我在Python/Pandas中做过这种事情,但是我的数据对于Pandas (在一个小集群上)来说太大了,我是Spark noob。这是Spark可以做到的吗?它可以对多个列执行此操作吗?如果是这样的话,是怎么做的?如果没有,在谁的Hadoop工具套件中有任何替代方法的建议吗?
谢谢!
https://stackoverflow.com/questions/38131982
相似问题