我的工作是跟踪Customer,我的任务是每晚处理文件(比如1000 ),通过缓存将所有输入文件中的数据收集到dataframe中,最后生成一个数据库单元条目。问题是,在少数情况下读取它们时,"InvoiceData"丢失,我仍然需要通过添加缺少空值的"InvoiceData"数组来处理它们,以便稍后查看它们,并且不要中断进程。在dataframe中,我只得到CompanyID、StoreID、StartTime、EndTime和"StoreData"。
我需要用CompanyID、StoreID、StartTime、EndTime "I
使用Pyspark,如何选择/保留包含非空值的所有列;或者等效地删除不包含数据的所有列。
编辑:根据Suresh请求,
for column in media.columns:
if media.select(media[column]).distinct().count() == 1:
media = media.drop(media[column])
我在这里假设,如果伯爵是一个,那么应该是南。但我想看看那是不是南。如果还有其他内置的火花函数,请告诉我。