我正在使用OpenFoodFacts数据集使用PySpark。有相当多的列完全由缺失的值组成,我想删除这些列。我一直在查找检索每一列中缺失值的数量的方法,但它们以表格格式显示,而不是实际给出总空值的数值。下面的代码显示列中缺少的值的数,但以表格式显示它
from pyspark.sql.functions import col,
这些文件都具有类似的格式,第一列称为日期,第二列是一系列都命名为值的列。因此,首先,值列名需要重命名为每个csv文件中的文件名。第二,帧需要完全外部连接,以日期为主要索引。我正在尝试将所有文件完全连接到一个数据文件中,我以前尝试过使用熊猫,但是当我试图连接文件列表时内存不足,有人建议我尝试使用PySpark。, value DOUBLE")
但是所有的列都被命名为VALUE,框架变成了两列