理论上,当我们拆分数据进行训练和测试时,我们应该独立地标准化训练数据,以避免引入偏差,然后在训练模型之后,我们使用与训练集相同的“参数”值来标准化测试集。到目前为止,我只在没有管道的情况下做到了这一点,如下所示: val training = splitData(0)val assemblerTrainingscaledTrainingData = scalerModel.transform(training)
val
我有一台运行在AWS EMR中的PySpark笔记本。在我的特定案例中,我希望使用pyspark2pmml为我刚刚训练的模型创建pmml。JPMML-SparkML not found on classpath File "/tmp/1623111492721-0/not found on classpath")
RuntimeError: JPMML-Sp