目前,我正在使用PySpark 2.3.1和Python3.6.6。
我需要处理一个.csv文件,其中?用作NA。我想让PySpark直接认识到?是NA,这样我就可以对它们进行处理。我在nullValue=中尝试过spark.read.csv中的论点,但没有成功,我不确定它是否与使用不当的论点有关,或者?字符在这些情况下是一个问题(我已经尝试了nullValue='?'在阅读了PySpark AP
我试图使用一个简单的数据集来运行Logistic回归,以理解pyspark的语法。我有数据,看上去有11列,其中前10列是特性,最后一列(第11列)是标签。我想传递这10列作为特征和第11列作为标签。但是我只知道作为一个列传递,使用featuresCol="col_header_name"作为一个特性传递,我使用熊猫读取了csv文件中的数据,但我已经将其转换为RDD。以下是代码:
from pyspark<