我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据,其中有一个名为“time”的列,以纳秒为单位。在Python中,我使用以下代码将字段转换为适当的日期时间值:
# Convert time field from nanoseconds into datetimedf["time"] = pd.to_datetime(df["time&quo
例如:How to automatically drop constant columns in pyspark?但我发现,没有一个答案解决了这个问题,即countDistinct()不将空值视为不同的值。因此,只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您