例如:How to automatically drop constant columns in pyspark?因此,只有两个结果null和none NULL值的列也将被删除。 一个丑陋的解决方案是将spark dataframe中的所有null值替换为您确信在dataframe中其他地方不存在的值。
我在python/pyspark中有一个数据框架。这些列具有点(.)这样的特殊字符。空格括号(())和括号{}。以他们的名义。现在,我想重命名列名,如果有点和空格,用下划线替换它们,如果有()和{},那么从列名中删除它们。df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c) for c in df.columns))
这样,我就能够用下划线替换点和空格,而不能执行第二位,也