在执行PySpark代码时,通过提供所需的模式从现有的DataFrame创建DF时,我无法展示在什么情况下会引发以下异常,此代码在Databricks社区平台中执行。请帮助解决将数据框显示为输出的问题。代码: from pyspark import SparkConf, SparkContextsc = SparkContext.getOrCreate(conf=conf)
r
我有重复的行,可能包含相同的数据或在PySpark数据框中有缺失值。我写的代码非常慢,并且不能作为分布式系统工作。有谁知道如何从PySpark数据帧中的重复行中保留单个唯一值,该数据帧可以作为分布式系统运行,并且具有快速的处理时间? 我已经写了完整的Pyspark代码,这个代码工作正常。():
# Match duplicates using std name and cr